論文の概要: RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2601.21634v1
- Date: Thu, 29 Jan 2026 12:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.813381
- Title: RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning
- Title(参考訳): RSGround-R1:空間推論によるリモートセンシング視覚グラウンド再考
- Authors: Shiqi Huang, Shuting He, Bihan Wen,
- Abstract要約: リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 61.84363374647606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote Sensing Visual Grounding (RSVG) aims to localize target objects in large-scale aerial imagery based on natural language descriptions. Owing to the vast spatial scale and high semantic ambiguity of remote sensing scenes, these descriptions often rely heavily on positional cues, posing unique challenges for Multimodal Large Language Models (MLLMs) in spatial reasoning. To leverage this unique feature, we propose a reasoning-guided, position-aware post-training framework, dubbed \textbf{RSGround-R1}, to progressively enhance spatial understanding. Specifically, we first introduce Chain-of-Thought Supervised Fine-Tuning (CoT-SFT) using synthetically generated RSVG reasoning data to establish explicit position awareness. Reinforcement Fine-Tuning (RFT) is then applied, augmented by our newly designed positional reward that provides continuous and distance-aware guidance toward accurate localization. Moreover, to mitigate incoherent localization behaviors across rollouts, we introduce a spatial consistency guided optimization scheme that dynamically adjusts policy updates based on their spatial coherence, ensuring stable and robust convergence. Extensive experiments on RSVG benchmarks demonstrate superior performance and generalization of our model.
- Abstract(参考訳): リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
リモートセンシングシーンの広い空間スケールと高い意味的あいまいさのため、これらの記述はしばしば位置的手がかりに大きく依存し、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起する。
この特徴を活用するために, 空間理解の高度化を図るために, 推論誘導型位置認識後学習フレームワークである「textbf{RSGround-R1}」を提案する。
具体的には、合成されたRSVG推論データを用いて、まずChain-of-Thought Supervised Fine-Tuning (CoT-SFT)を導入し、明確な位置認識を確立する。
補強ファインチューニング (RFT) を適用し, 高精度な位置合わせに向けた連続的かつ距離対応のガイダンスを提供するために, 新たに設計された位置対応報酬によって強化する。
さらに、ロールアウトにおける不整合な局所化挙動を軽減するために、空間的コヒーレンスに基づいてポリシー更新を動的に調整し、安定かつ堅牢な収束を保証する空間的整合性誘導最適化方式を導入する。
RSVGベンチマークの大規模な実験により,本モデルの優れた性能と一般化が示された。
関連論文リスト
- Uni-RS: A Spatially Faithful Unified Understanding and Generation Model for Remote Sensing [9.357861053928898]
統一されたリモートセンシングマルチモーダルモデルは、明らかに空間的逆転の呪いを示す。
リモートセンシングに適した最初の統一モデルUni-RSを提案する。
本研究では,テキスト・画像生成における空間忠実度を大幅に向上させる手法を提案する。
論文 参考訳(メタデータ) (2026-01-25T03:22:26Z) - SATGround: A Spatially-Aware Approach for Visual Grounding in Remote Sensing [57.609801041296095]
視覚言語モデル(VLM)はリモートセンシングの強力なツールとして登場しつつある。
衛星画像におけるVLMに基づく視覚的グラウンド化を,新しい構造的局所化機構を提案することで促進する。
論文 参考訳(メタデータ) (2025-12-09T18:15:43Z) - SVRecon: Sparse Voxel Rasterization for Surface Reconstruction [60.92372415355283]
我々は最近提案されたスパースボキセル化パラダイムをSVReconの統合により高忠実度表面再構成の課題に拡張する。
本手法は, 常に高速な収束を保ちながら, 強い復元精度を実現する。
論文 参考訳(メタデータ) (2025-11-21T16:32:01Z) - Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images [51.74614065919118]
本稿では,アノテーションのないRS画像のオープン語彙セグメンテーションのための最初のフレームワークであるSegEarth-OVを紹介する。
粗い特徴から高分解能空間の詳細を頑健に復元する普遍的なアップサンプラーであるSimFeatUpを提案する。
また、パッチ機能から固有のグローバルコンテキストを抽出するための、シンプルで効果的なグローバルバイアス緩和操作も提示する。
論文 参考訳(メタデータ) (2025-08-25T14:22:57Z) - DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models [9.109484087832058]
DiffRISは、RRSISタスクのための事前訓練されたテキスト-画像拡散モデルのセマンティック理解機能を利用する新しいフレームワークである。
我々のフレームワークは、文脈認識アダプタ(CP-adapter)とクロスモーダル推論デコーダ(PCMRD)の2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2025-06-23T02:38:56Z) - SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - RAPiD-Seg: Range-Aware Pointwise Distance Distribution Networks for 3D LiDAR Segmentation [22.877384781595556]
本稿では,Range-Aware Pointwise Distance Distribution(RAPiD)と関連するRAPiD-Segアーキテクチャを紹介する。
RAPiDの特徴は剛性変換不変性を示し、点密度の変動に効果的に適応する。
本稿では,高次元特徴を管理可能なボクセル・ワイド・埋め込みにエンコードする,新しいクラス認識型埋め込み目的を持つ2次元オートエンコーダ構造を提案する。
論文 参考訳(メタデータ) (2024-07-14T10:59:34Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。