論文の概要: RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow
- arxiv url: http://arxiv.org/abs/2507.19280v1
- Date: Fri, 25 Jul 2025 13:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.980087
- Title: RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow
- Title(参考訳): RemoteReasoner: 地理空間推論ワークフローの統合を目指して
- Authors: Liang Yao, Fan Liu, Hongbo Lu, Chuanyi Zhang, Rui Min, Shengxiang Xu, Shimin Di, Pai Peng,
- Abstract要約: リモートセンシング画像は、大きく、本質的に非構造的な空間データを提示する。
リモートセンシング推論タスクのためのフレキシブルで堅牢なワークフローであるRemoteReasonerを提案する。
予備実験により、RemoteReasonerは複数の粒度推論タスクで顕著な性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 19.502882116487005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing imagery presents vast, inherently unstructured spatial data, demanding sophisticated reasoning to interpret complex user intents and contextual relationships beyond simple recognition tasks. In this paper, we aim to construct an Earth observation workflow to handle complex queries by reasoning about spatial context and user intent. As a reasoning workflow, it should be somewhat autonomous, where predefined ground-truth reasoning paths do not constrain the learning process. Furthermore, its architecture ought to be unified yet flexible, enabling the model to perform diverse reasoning tasks with distinct output formats through a single forward pass. Existing remote sensing approaches fail to address these requirements, as they rely on supervised fine-tuning paradigms that constrain the autonomy of reasoning. To this end, we propose RemoteReasoner, a flexible and robust workflow for remote sensing reasoning tasks. The design of RemoteReasoner integrates a multi-modal large language model (MLLM) for interpreting user instructions and localizing targets, together with task adaptation strategies that enable multi-granularity output generation. In contrast to existing methods, our framework is trained with reinforcement learning (RL) to endow the MLLM sufficient autonomy for precise reasoning. At the inference stage, our adaptation strategies enable diverse output formats at inference time without requiring task-specific decoders or further fine-tuning. Preliminary experiments demonstrated that RemoteReasoner achieves remarkable performance across multi-granularity reasoning tasks, including region-level and pixel-level. Additionally, our framework enables novel capabilities such as the contour extraction task beyond the reach of existing reasoning pipelines.
- Abstract(参考訳): リモートセンシング画像は、広大で本質的に非構造的な空間データを提示し、複雑なユーザ意図やコンテキスト的関係を単純な認識タスクを超えて解釈する洗練された推論を要求する。
本稿では,空間的コンテキストとユーザ意図を考慮し,複雑なクエリを処理するための地球観測ワークフローを構築することを目的とする。
推論のワークフローとしては、事前定義された地道推論パスが学習プロセスに制約を与えないような、ある程度自律的であるべきです。
さらに、そのアーキテクチャは統一されてフレキシブルでなければならないため、モデルは単一のフォワードパスを通じて、異なる出力フォーマットで様々な推論タスクを実行できる。
既存のリモートセンシングアプローチは、推論の自律性を制限する教師付き微調整パラダイムに依存するため、これらの要件に対処できない。
この目的のために、リモートセンシング推論タスクのためのフレキシブルで堅牢なワークフローであるRemoteReasonerを提案する。
RemoteReasonerの設計は、ユーザ命令の解釈とターゲットのローカライズのためのマルチモーダル大言語モデル(MLLM)と、マルチグラニュラリティ出力生成を可能にするタスク適応戦略を統合している。
従来の手法とは対照的に,我々のフレームワークは強化学習(RL)を用いて訓練され,正確な推論のためのMLLMの十分な自律性を実現する。
推論段階では,タスク固有のデコーダや微調整を必要とせず,多様な出力フォーマットを推論時に実現する。
予備実験では、RemoteReasonerは、領域レベルやピクセルレベルを含む複数の粒度推論タスクにまたがる顕著なパフォーマンスを実現している。
さらに,提案フレームワークは,既存の推論パイプラインの到達範囲を超えた輪郭抽出タスクなど,新たな機能を実現する。
関連論文リスト
- Feature Engineering for Agents: An Adaptive Cognitive Architecture for Interpretable ML Monitoring [2.1205272468688574]
大規模言語モデルに基づくエージェントに特徴工学の原則を適用したMLモニタリングのための認知アーキテクチャを提案する。
決定手順モジュールは、リファクタリング、ブレークダウン、コンパイルという3つの重要なステップを通じて、機能エンジニアリングをシミュレートする。
複数のLCMを用いた実験により, 各種ベースラインと比較して精度が有意に向上し, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-06-11T13:48:25Z) - Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router [9.580226379350737]
大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。
しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。
異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
論文 参考訳(メタデータ) (2025-06-06T09:18:56Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking in Large Language Models [32.51746551988431]
AdaReasoner は LLM に依存しないプラグインで,任意の LLM が適応推論設定を自動化するように設計されている。
AdaReasonerは強化学習(RL)フレームワークを使用して訓練され、因子化されたアクション空間とターゲット探索戦略を組み合わせた。
標準ベースラインを一貫して上回り、分布外ロバスト性を保ち、調整されたプロンプトを通じて知識集約的なタスクに利益をもたらす。
論文 参考訳(メタデータ) (2025-05-22T22:06:11Z) - Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation [89.5123417007126]
空間的行動空間をLMM(Large Multimodal Models)に理解させる方法について述べる。
また,これらの課題を解決する上で,LMMの推論能力を完全に活用する方法を示す。
その結果、ReasonManipという名前の7Bバックボーン上に構築された推論モデルは、3つの顕著な利点を示しています。
論文 参考訳(メタデータ) (2025-05-19T06:00:14Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Inverse Reinforcement Learning of Autonomous Behaviors Encoded as
Weighted Finite Automata [18.972270182221262]
本稿では,論理タスク仕様とコスト関数を実演から学習する手法を提案する。
本稿では,タスクの未知論理構造を近似した重み付き有限オートマトン(WFA)の抽出にスペクトル学習手法を用いる。
高レベルタスクガイダンスのためのWFAと低レベル制御のためのラベル付きマルコフ決定プロセス(L-MDP)との間にある製品を定義し、実証者の行動にマッチするコスト関数を最適化する。
論文 参考訳(メタデータ) (2021-03-10T06:42:10Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。