論文の概要: CLAIRE: A Dual Encoder Network with RIFT Loss and Phi-3 Small Language Model Based Interpretability for Cross-Modality Synthetic Aperture Radar and Optical Land Cover Segmentation
- arxiv url: http://arxiv.org/abs/2509.11952v1
- Date: Mon, 15 Sep 2025 14:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.327946
- Title: CLAIRE: A Dual Encoder Network with RIFT Loss and Phi-3 Small Language Model Based Interpretability for Cross-Modality Synthetic Aperture Radar and Optical Land Cover Segmentation
- Title(参考訳): CLAIRE: RIFT損失とPhi-3小言語モデルに基づく2次元エンコーダネットワーク
- Authors: Debopom Sutradhar, Arefin Ittesafun Abian, Mohaimenul Azam Khan Raiaan, Reem E. Mohamed, Sheikh Izzal Azid, Sami Azam,
- Abstract要約: 本稿では、光学および合成開口レーダ(SAR)画像から、独立してモダリティ特有の特徴を抽出するデュアルエンコーダアーキテクチャを提案する。
この融合機構は、補完的な空間的特徴とテクスチャ的特徴を強調し、ネットワークがより詳細に多様な土地被覆パターンを捉えることを可能にする。
また,Small Language Model (Phi-3) によって生成される計量駆動推論モジュールを導入し,モデル予測のための専門家レベル,サンプル固有の正当性を生成する。
- 参考スコア(独自算出の注目度): 1.1237223647481338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate land cover classification from satellite imagery is crucial in environmental monitoring and sustainable resource management. However, it remains challenging due to the complexity of natural landscapes, the visual similarity between classes, and the significant class imbalance in the available datasets. To address these issues, we propose a dual encoder architecture that independently extracts modality-specific features from optical and Synthetic Aperture Radar (SAR) imagery, which are then fused using a cross-modality attention-fusion module named Cross-modality Land cover segmentation with Attention and Imbalance-aware Reasoning-Enhanced Explanations (CLAIRE). This fusion mechanism highlights complementary spatial and textural features, enabling the network to better capture detailed and diverse land cover patterns. We incorporate a hybrid loss function that utilizes Weighted Focal Loss and Tversky Loss named RIFT (Rare-Instance Focal-Tversky) to address class imbalance and improve segmentation performance across underrepresented categories. Our model achieves competitive performance across multiple benchmarks: a mean Intersection over Union (mIoU) of 56.02% and Overall Accuracy (OA) of 84.56% on the WHU-OPT-SAR dataset; strong generalization with a mIoU of 59.89% and OA of 73.92% on the OpenEarthMap-SAR dataset; and remarkable robustness under cloud-obstructed conditions, achieving an mIoU of 86.86% and OA of 94.58% on the PIE-RGB-SAR dataset. Additionally, we introduce a metric-driven reasoning module generated by a Small Language Model (Phi-3), which generates expert-level, sample-specific justifications for model predictions, thereby enhancing transparency and interpretability.
- Abstract(参考訳): 衛星画像からの正確な土地被覆分類は,環境モニタリングや持続可能な資源管理において重要である。
しかし、自然景観の複雑さ、クラス間の視覚的類似性、利用可能なデータセットにおける重要なクラス不均衡のため、依然として困難である。
これらの問題に対処するため,光および合成開口レーダ (SAR) 画像からモダリティ固有の特徴を独立に抽出するデュアルエンコーダアーキテクチャを提案する。
この融合機構は、補完的な空間的特徴とテクスチャ的特徴を強調し、ネットワークがより詳細に多様な土地被覆パターンを捉えることを可能にする。
Weighted Focal Loss and Tversky Loss named RIFT (Rare-Instance Focal-Tversky) を用いて、クラス不均衡に対処し、未表現のカテゴリ間でセグメンテーション性能を向上させるハイブリッド損失関数を組み込んだ。
本モデルでは,WHU-OPT-SARデータセットでは,平均値(mIoU)が56.02%,総合値(OA)が84.56%,OpenEarthMap-SARデータセットでは59.89%,OAが73.92%,PIE-RGB-SARデータセットでは86.86%,OAが94.58%であった。
また,Small Language Model (Phi-3) によって生成される計量駆動推論モジュールを導入し,モデル予測のための専門家レベル,サンプル固有の正当性を生成し,透明性と解釈可能性を向上させる。
関連論文リスト
- Knowledge-guided Complex Diffusion Model for PolSAR Image Classification in Contourlet Domain [58.46450049579116]
本稿では,Contourlet領域におけるPolSAR画像分類のための知識誘導複合拡散モデルを提案する。
具体的には、まずデータを低周波サブバンドと高周波サブバンドに分解するためにContourlet変換を適用する。
次に、低周波成分の統計特性をモデル化するために、知識誘導複合拡散ネットワークを設計する。
論文 参考訳(メタデータ) (2025-07-08T04:50:28Z) - PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [76.95536611263356]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - SpecSAR-Former: A Lightweight Transformer-based Network for Global LULC Mapping Using Integrated Sentinel-1 and Sentinel-2 [13.17346252861919]
我々はDynamic World+データセットを導入し、現在の信頼できるマルチスペクトルデータセットDynamic Worldを拡張した。
マルチスペクトルとSARデータの組み合わせを容易にするために,SpecSAR-Formerと呼ばれる軽量トランスフォーマアーキテクチャを提案する。
我々のネットワークは、既存のトランスフォーマーとCNNベースのモデルより優れており、平均的なユニオンのインターセクション(mIoU)は59.58%、総合的精度(OA)は79.48%、F1スコアは71.68%、パラメータは26.70万である。
論文 参考訳(メタデータ) (2024-10-04T22:53:25Z) - SDF2Net: Shallow to Deep Feature Fusion Network for PolSAR Image
Classification [1.2349871196144497]
畳み込みニューラルネットワーク(CNN)は, PolSAR画像の特徴を捉える上で重要な役割を担っている。
本研究では,PolSAR画像分類において,Shallow to Deep Feature Fusion Network (SDF2Net) と呼ばれる複素数値CNNの3分岐融合を提案する。
その結果、提案手法は全体的な精度の向上を示し、AIRSARデータセットは1.3%、0.8%、ESARデータセットは0.5%向上した。
論文 参考訳(メタデータ) (2024-02-27T16:46:21Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Spatial Attention-based Distribution Integration Network for Human Pose
Estimation [0.8052382324386398]
本研究では,空間アテンションに基づく分布統合ネットワーク(SADI-NET)を提案する。
我々のネットワークは、受容強化モジュール(RFM)、空間融合モジュール(SFM)、分散学習モジュール(DLM)の3つの効率的なモデルで構成されている。
我々のモデルは、MPIIテストデータセットで920.10%の精度を得、既存のモデルよりも大幅に改善され、最先端のパフォーマンスが確立された。
論文 参考訳(メタデータ) (2023-11-09T12:43:01Z) - SatDM: Synthesizing Realistic Satellite Image with Semantic Layout
Conditioning using Diffusion Models [0.0]
Denoising Diffusion Probabilistic Models (DDPM) は意味的レイアウトから現実的なイメージを合成する上で大きな可能性を証明している。
本稿では,セマンティックマップを用いて高品質で多様な衛星画像を生成する条件付きDDPMモデルを提案する。
提案モデルの有効性は,本研究の文脈内で導入した詳細なラベル付きデータセットを用いて検証する。
論文 参考訳(メタデータ) (2023-09-28T19:39:13Z) - LoLep: Single-View View Synthesis with Locally-Learned Planes and
Self-Attention Occlusion Inference [66.45326873274908]
本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。
MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
論文 参考訳(メタデータ) (2023-07-23T03:38:55Z) - Beyond single receptive field: A receptive field
fusion-and-stratification network for airborne laser scanning point cloud
classification [14.706139194001773]
新たな受容場融合・成層ネットワーク(RFFS-Net)を提案する。
RFFS-Netは、大規模ALS点雲における複雑な構造と極端なスケールの変動を持つ領域の分類に適応可能である。
LASDUデータセットと2019年のIEEE-GRSS Data Fusion Contestデータセットの実験は、RFFS-Netが新しい最先端の分類性能を達成することを示している。
論文 参考訳(メタデータ) (2022-07-21T03:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。