論文の概要: Think and Answer ME: Benchmarking and Exploring Multi-Entity Reasoning Grounding in Remote Sensing
- arxiv url: http://arxiv.org/abs/2603.12788v1
- Date: Fri, 13 Mar 2026 08:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.001363
- Title: Think and Answer ME: Benchmarking and Exploring Multi-Entity Reasoning Grounding in Remote Sensing
- Title(参考訳): リモートセンシングにおけるマルチエンティティ推論グラウンドのベンチマークと探索
- Authors: Shuchang Lyu, Haiquan Wen, Guangliang Cheng, Meng Li, Zheng Zhou, You Zhou, Dingding Yao, Zhenwei Shi,
- Abstract要約: 我々はマルチエンタリティ推論タスクとしてリモートセンシンググラウンドを再構成する。
本稿では,視覚言語基礎モデルに基づくEntity-Aware Reasoning (EAR)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.51580097178317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reasoning language models and reinforcement learning with verifiable rewards have significantly enhanced multi-step reasoning capabilities. This progress motivates the extension of reasoning paradigms to remote sensing visual grounding task. However, existing remote sensing grounding methods remain largely confined to perception-level matching and single-entity formulations, limiting the role of explicit reasoning and inter-entity modeling. To address this challenge, we introduce a new benchmark dataset for Multi-Entity Reasoning Grounding in Remote Sensing (ME-RSRG). Based on ME-RSRG, we reformulate remote sensing grounding as a multi-entity reasoning task and propose an Entity-Aware Reasoning (EAR) framework built upon visual-linguistic foundation models. EAR generates structured reasoning traces and subject-object grounding outputs. It adopts supervised fine-tuning for cold-start initialization and is further optimized via entity-aware reward-driven Group Relative Policy Optimization (GRPO). Extensive experiments on ME-RSRG demonstrate the challenges of multi-entity reasoning and verify the effectiveness of our proposed EAR framework. Our dataset, code, and models will be available at https://github.com/CV-ShuchangLyu/ME-RSRG.
- Abstract(参考訳): 近年の推論言語モデルと、検証可能な報酬を用いた強化学習は、多段階推論能力を著しく向上させた。
この進歩は、リモートセンシング視覚接地タスクへの推論パラダイムの拡張を動機付けている。
しかし、既存のリモートセンシングの接地法は、知覚レベルのマッチングと単一エンタリティの定式化に限られており、明示的な推論と相互エンタリティモデリングの役割を制限している。
この課題に対処するため,Multi-Entity Reasoning Grounding in Remote Sensing (ME-RSRG) のためのベンチマークデータセットを導入した。
ME-RSRGに基づいて,マルチエンタリティ推論タスクとしてリモートセンシンググラウンドを再構成し,視覚言語基礎モデルに基づくEntity-Aware Reasoning (EAR) フレームワークを提案する。
EARは構造化推論トレースと主観対象グラウンド出力を生成する。
冷間開始初期化のために教師付き微調整を採用しており、エンティティ対応報酬駆動グループ相対ポリシー最適化(GRPO)によってさらに最適化されている。
ME-RSRGに関する大規模な実験は、マルチエンタリティ推論の課題を実証し、提案したEARフレームワークの有効性を検証する。
私たちのデータセット、コード、モデルはhttps://github.com/CV-ShuchangLyu/ME-RSRG.comで公開されます。
関連論文リスト
- RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation [71.2136732268131]
RGB-Thermal(RGBT)トラッキングは、多様な環境条件をまたいだ堅牢なオブジェクトローカライゼーションを実現することを目的としている。
既存のRGBTトラッカーは、ターゲットモデリングのための初期フレームの視覚情報のみに依存している。
堅牢なRGBTトラッキングのための新しい検索拡張フレームワークであるRAGTrackを提案する。
論文 参考訳(メタデータ) (2026-03-04T01:02:04Z) - Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。
高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。
SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。
RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文 参考訳(メタデータ) (2025-12-19T07:44:43Z) - VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - Reasoning RAG via System 1 or System 2: A Survey on Reasoning Agentic Retrieval-Augmented Generation for Industry Challenges [6.615766570234612]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルの知識制限を克服する強力なフレームワークとして登場した。
これらの課題に対処するため、フィールドは推論エージェントRAG(Reasoning Agentic RAG)へと移行した。
論文 参考訳(メタデータ) (2025-06-12T07:01:56Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。