論文の概要: Referring Remote Sensing Image Segmentation via Bidirectional Alignment Guided Joint Prediction
- arxiv url: http://arxiv.org/abs/2502.08486v1
- Date: Wed, 12 Feb 2025 15:21:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:04.378658
- Title: Referring Remote Sensing Image Segmentation via Bidirectional Alignment Guided Joint Prediction
- Title(参考訳): 双方向アライメント誘導関節予測によるリモートセンシング画像セグメンテーションの参照
- Authors: Tianxiang Zhang, Zhaokun Wen, Bo Kong, Kecheng Liu, Yisi Zhang, Peixian Zhuang, Jiangyun Li,
- Abstract要約: 私たちのフレームワークは、視覚と言語の間のギャップを埋め、マルチスケールの機能相互作用を強化し、オブジェクトの微粒化を改善するために設計された新しいフレームワークです。
ベンチマークデータセットであるRefSegRSとRRSIS-Dの実験は、我々の成果が最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 7.8862197224709805
- License:
- Abstract: Referring Remote Sensing Image Segmentation (RRSIS) is critical for ecological monitoring, urban planning, and disaster management, requiring precise segmentation of objects in remote sensing imagery guided by textual descriptions. This task is uniquely challenging due to the considerable vision-language gap, the high spatial resolution and broad coverage of remote sensing imagery with diverse categories and small targets, and the presence of clustered, unclear targets with blurred edges. To tackle these issues, we propose \ours, a novel framework designed to bridge the vision-language gap, enhance multi-scale feature interaction, and improve fine-grained object differentiation. Specifically, \ours introduces: (1) the Bidirectional Spatial Correlation (BSC) for improved vision-language feature alignment, (2) the Target-Background TwinStream Decoder (T-BTD) for precise distinction between targets and non-targets, and (3) the Dual-Modal Object Learning Strategy (D-MOLS) for robust multimodal feature reconstruction. Extensive experiments on the benchmark datasets RefSegRS and RRSIS-D demonstrate that \ours achieves state-of-the-art performance. Specifically, \ours improves the overall IoU (oIoU) by 3.76 percentage points (80.57) and 1.44 percentage points (79.23) on the two datasets, respectively. Additionally, it outperforms previous methods in the mean IoU (mIoU) by 5.37 percentage points (67.95) and 1.84 percentage points (66.04), effectively addressing the core challenges of RRSIS with enhanced precision and robustness.
- Abstract(参考訳): Referring Remote Sensing Image Segmentation (RRSIS) は、環境モニタリング、都市計画、災害管理において重要であり、テキストによる記述によって導かれるリモートセンシング画像におけるオブジェクトの正確なセグメンテーションを必要とする。
この課題は、視覚と言語の間に大きなギャップがあり、多様なカテゴリや小さなターゲットを持つリモートセンシング画像の空間分解能が高く、また、ぼやけたエッジを持つクラスタ化された不明瞭なターゲットが存在するため、独特な課題である。
これらの課題に対処するために,視覚言語間ギャップを埋める,複数スケールの機能相互作用を強化する,オブジェクトの微粒化を改善する,新しいフレームワークであるShaoursを提案する。
具体的には、(1)視覚言語の特徴アライメントを改善するための双方向空間相関(BSC)、(2)目標と非目標を正確に区別するためのT-BTD、(3)頑健なマルチモーダル特徴再構成のためのデュアルモーダル物体学習戦略(D-MOLS)を紹介する。
ベンチマークデータセットであるRefSegRSとRRSIS-Dの大規模な実験は、 \oursが最先端のパフォーマンスを達成することを実証している。
具体的には、2つのデータセットでそれぞれ3.76ポイント(80.57点)と1.44ポイント(79.23点)の全体的なIoU(oIoU)を改善している。
さらに、平均IoU(mIoU)の従来の手法を5.37ポイント(67.95点)と1.84ポイント(66.04点)で上回り、精度と堅牢性を高めてRRSISのコア課題に効果的に対処する。
関連論文リスト
- Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [9.109484087832058]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - RAPiD-Seg: Range-Aware Pointwise Distance Distribution Networks for 3D LiDAR Segmentation [22.877384781595556]
本稿では,Range-Aware Pointwise Distance Distribution(RAPiD)と関連するRAPiD-Segアーキテクチャを紹介する。
RAPiDの特徴は剛性変換不変性を示し、点密度の変動に効果的に適応する。
本稿では,高次元特徴を管理可能なボクセル・ワイド・埋め込みにエンコードする,新しいクラス認識型埋め込み目的を持つ2次元オートエンコーダ構造を提案する。
論文 参考訳(メタデータ) (2024-07-14T10:59:34Z) - SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。
具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。
様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-01T07:03:51Z) - Importance-Aware Image Segmentation-based Semantic Communication for
Autonomous Driving [9.956303020078488]
本稿では,自律運転におけるイメージセグメンテーションに基づくセマンティックコミュニケーションの問題について考察する。
本研究では、VIS-SemComと呼ばれる車両画像セグメント指向のセマンティックコミュニケーションシステムを提案する。
提案したVIS-SemCom は,約6dB の符号ゲインを実現し,60% mIoU で送信したデータ量を最大70% 削減し,従来の伝送方式に比べて重要なオブジェクトの結合(IoU) の分割交叉率を 4% 向上させることができる。
論文 参考訳(メタデータ) (2024-01-16T18:14:44Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - Hierarchical Disentanglement-Alignment Network for Robust SAR Vehicle
Recognition [18.38295403066007]
HDANetは機能障害とアライメントを統合フレームワークに統合する。
提案手法は,MSTARデータセットにおいて,9つの動作条件にまたがる顕著なロバスト性を示す。
論文 参考訳(メタデータ) (2023-04-07T09:11:29Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation [0.5482532589225552]
本稿では,空間的コンテキスト情報を中心として,新たなネットワークである Triple Context Network (TC-Net) を提案する。
我々のネットワークはオープンデータセットATLASで評価され、最高スコアは0.594、ハウスドルフ距離は27.005mm、平均対称性表面距離は7.137mmである。
論文 参考訳(メタデータ) (2022-02-28T11:12:16Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。