Fugu-MT 論文翻訳(概要): RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow

論文の概要: RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow

arxiv url: http://arxiv.org/abs/2507.19280v1
Date: Fri, 25 Jul 2025 13:58:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-28 16:16:48.980087
Title: RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow
Title（参考訳）: RemoteReasoner: 地理空間推論ワークフローの統合を目指して
Authors: Liang Yao, Fan Liu, Hongbo Lu, Chuanyi Zhang, Rui Min, Shengxiang Xu, Shimin Di, Pai Peng,
Abstract要約: リモートセンシング画像は、大きく、本質的に非構造的な空間データを提示する。リモートセンシング推論タスクのためのフレキシブルで堅牢なワークフローであるRemoteReasonerを提案する。予備実験により、RemoteReasonerは複数の粒度推論タスクで顕著な性能を発揮することが示された。
参考スコア（独自算出の注目度）: 19.502882116487005
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Remote sensing imagery presents vast, inherently unstructured spatial data, demanding sophisticated reasoning to interpret complex user intents and contextual relationships beyond simple recognition tasks. In this paper, we aim to construct an Earth observation workflow to handle complex queries by reasoning about spatial context and user intent. As a reasoning workflow, it should be somewhat autonomous, where predefined ground-truth reasoning paths do not constrain the learning process. Furthermore, its architecture ought to be unified yet flexible, enabling the model to perform diverse reasoning tasks with distinct output formats through a single forward pass. Existing remote sensing approaches fail to address these requirements, as they rely on supervised fine-tuning paradigms that constrain the autonomy of reasoning. To this end, we propose RemoteReasoner, a flexible and robust workflow for remote sensing reasoning tasks. The design of RemoteReasoner integrates a multi-modal large language model (MLLM) for interpreting user instructions and localizing targets, together with task adaptation strategies that enable multi-granularity output generation. In contrast to existing methods, our framework is trained with reinforcement learning (RL) to endow the MLLM sufficient autonomy for precise reasoning. At the inference stage, our adaptation strategies enable diverse output formats at inference time without requiring task-specific decoders or further fine-tuning. Preliminary experiments demonstrated that RemoteReasoner achieves remarkable performance across multi-granularity reasoning tasks, including region-level and pixel-level. Additionally, our framework enables novel capabilities such as the contour extraction task beyond the reach of existing reasoning pipelines.
Abstract（参考訳）: リモートセンシング画像は、広大で本質的に非構造的な空間データを提示し、複雑なユーザ意図やコンテキスト的関係を単純な認識タスクを超えて解釈する洗練された推論を要求する。本稿では,空間的コンテキストとユーザ意図を考慮し,複雑なクエリを処理するための地球観測ワークフローを構築することを目的とする。推論のワークフローとしては、事前定義された地道推論パスが学習プロセスに制約を与えないような、ある程度自律的であるべきです。さらに、そのアーキテクチャは統一されてフレキシブルでなければならないため、モデルは単一のフォワードパスを通じて、異なる出力フォーマットで様々な推論タスクを実行できる。既存のリモートセンシングアプローチは、推論の自律性を制限する教師付き微調整パラダイムに依存するため、これらの要件に対処できない。この目的のために、リモートセンシング推論タスクのためのフレキシブルで堅牢なワークフローであるRemoteReasonerを提案する。 RemoteReasonerの設計は、ユーザ命令の解釈とターゲットのローカライズのためのマルチモーダル大言語モデル(MLLM)と、マルチグラニュラリティ出力生成を可能にするタスク適応戦略を統合している。従来の手法とは対照的に,我々のフレームワークは強化学習(RL)を用いて訓練され,正確な推論のためのMLLMの十分な自律性を実現する。推論段階では,タスク固有のデコーダや微調整を必要とせず,多様な出力フォーマットを推論時に実現する。予備実験では、RemoteReasonerは、領域レベルやピクセルレベルを含む複数の粒度推論タスクにまたがる顕著なパフォーマンスを実現している。さらに,提案フレームワークは,既存の推論パイプラインの到達範囲を超えた輪郭抽出タスクなど,新たな機能を実現する。

関連論文リスト

Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。 MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文参考訳（メタデータ） (2026-02-04T12:12:49Z)
AR-MOT: Autoregressive Multi-object Tracking [56.09738000988466]
本稿では,大規模言語モデル(LLM)フレームワーク内のシーケンス生成タスクとしてMOTを定式化する,新しい自己回帰パラダイムを提案する。この設計により、タスク固有のヘッドを必要とせずに、フレキシブルなシーケンス構成によって構造化された結果を出力できる。地域レベルの視覚知覚を高めるために,事前訓練された検出器に基づくオブジェクト・トケナイザを導入する。
論文参考訳（メタデータ） (2026-01-05T09:17:28Z)
Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文参考訳（メタデータ） (2025-11-24T03:11:08Z)
Tracking and Segmenting Anything in Any Modality [75.32774085793498]
そこで我々はSATAという汎用的なトラッキング・セグメンテーション・フレームワークを提案し、このフレームワークは任意のモダリティ入力でトラッキング・セグメンテーション・サブタスクの広帯域を統一する。 SATAは18の挑戦的なトラッキングとセグメンテーションベンチマークで優れたパフォーマンスを示し、より一般化可能なビデオ理解のための新しい視点を提供する。
論文参考訳（メタデータ） (2025-11-22T09:09:22Z)
Designing Domain-Specific Agents via Hierarchical Task Abstraction Mechanism [61.01709143437043]
階層型タスク抽象化機構(HTAM)を中心とした新しいエージェント設計フレームワークを提案する。具体的には、HTAMは、社会的役割のエミュレーションを超えて、代わりに、複数のエージェントシステムを、あるドメインの固有のタスク依存グラフを反映する論理階層に構造化する。我々は、複雑な地理空間解析に適したマルチエージェントシステムであるEarthAgentとして、このフレームワークをインスタンス化する。
論文参考訳（メタデータ） (2025-11-21T12:25:47Z)
AMAS: Adaptively Determining Communication Topology for LLM-based Multi-Agent System [19.336020954831202]
大規模言語モデル (LLM) は自然言語処理能力に革命をもたらし、産業問題解決のための自律型マルチエージェントシステム (MAS) として実践的に実装されている。我々は、新しい動的グラフデザイナを通じてLLMベースのMASを再定義するパラダイムシフトフレームワークであるAMASを紹介する。 AMASは個々の入力の固有の特性を利用して、タスク最適化エージェント経路を介してインテリジェントにクエリトラジェクトリをクエリする。
論文参考訳（メタデータ） (2025-10-02T02:50:22Z)
SignalLLM: A General-Purpose LLM Agent Framework for Automated Signal Processing [36.22027224597969]
大規模言語モデル(LLM)は、強力な推論能力、幅広い汎用知識、文脈内学習、モーダル間伝達能力を提供する。本稿では,SPタスクのための汎用LLMベースのエージェントフレームワークであるSignalLLMを紹介する。コミュニケーションとセンシングにおける5つの代表的なタスクを通して,SignalLLMの汎用性と有効性を示す。
論文参考訳（メタデータ） (2025-09-21T18:54:54Z)
Towards Agentic AI for Multimodal-Guided Video Object Segmentation [14.877182670778284]
参照ベースのビデオオブジェクトは、外部キューでガイドされたきめ細かいセグメンテーション結果を生成する必要のあるマルチモーダル問題である。ビジョン言語基礎モデルの最近の進歩は、トレーニングフリーアプローチへの有望な方向性を開いている。本稿では,この課題を柔軟かつ適応的に解決する新しいエージェントシステムであるMulti-Modal Agentを提案する。
論文参考訳（メタデータ） (2025-08-14T12:11:15Z)
Feature Engineering for Agents: An Adaptive Cognitive Architecture for Interpretable ML Monitoring [2.1205272468688574]
大規模言語モデルに基づくエージェントに特徴工学の原則を適用したMLモニタリングのための認知アーキテクチャを提案する。決定手順モジュールは、リファクタリング、ブレークダウン、コンパイルという3つの重要なステップを通じて、機能エンジニアリングをシミュレートする。複数のLCMを用いた実験により, 各種ベースラインと比較して精度が有意に向上し, 提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-06-11T13:48:25Z)
Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router [9.580226379350737]
大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
論文参考訳（メタデータ） (2025-06-06T09:18:56Z)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking in Large Language Models [32.51746551988431]
AdaReasoner は LLM に依存しないプラグインで,任意の LLM が適応推論設定を自動化するように設計されている。 AdaReasonerは強化学習(RL)フレームワークを使用して訓練され、因子化されたアクション空間とターゲット探索戦略を組み合わせた。標準ベースラインを一貫して上回り、分布外ロバスト性を保ち、調整されたプロンプトを通じて知識集約的なタスクに利益をもたらす。
論文参考訳（メタデータ） (2025-05-22T22:06:11Z)
Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation [89.5123417007126]
空間的行動空間をLMM(Large Multimodal Models)に理解させる方法について述べる。また,これらの課題を解決する上で,LMMの推論能力を完全に活用する方法を示す。その結果、ReasonManipという名前の7Bバックボーン上に構築された推論モデルは、3つの顕著な利点を示しています。
論文参考訳（メタデータ） (2025-05-19T06:00:14Z)
EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文参考訳（メタデータ） (2025-03-14T05:06:07Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
LLM-Generated Heuristics for AI Planning: Do We Even Need Domain-Independence Anymore? [87.71321254733384]
大規模言語モデル(LLM)は、特定の計画問題に適した計画手法を生成することができる。 LLMは、いくつかの標準IPCドメインで最先端のパフォーマンスを達成することができる。これらの結果がパラダイムシフトを意味するのか、既存の計画手法をどのように補完するかについて議論する。
論文参考訳（メタデータ） (2025-01-30T22:21:12Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Inverse Reinforcement Learning of Autonomous Behaviors Encoded as Weighted Finite Automata [18.972270182221262]
本稿では,論理タスク仕様とコスト関数を実演から学習する手法を提案する。本稿では,タスクの未知論理構造を近似した重み付き有限オートマトン(WFA)の抽出にスペクトル学習手法を用いる。高レベルタスクガイダンスのためのWFAと低レベル制御のためのラベル付きマルコフ決定プロセス(L-MDP)との間にある製品を定義し、実証者の行動にマッチするコスト関数を最適化する。
論文参考訳（メタデータ） (2021-03-10T06:42:10Z)
CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。タスクは、ブロックのセットから3D形状を構築することで構成される。
論文参考訳（メタデータ） (2020-10-08T23:01:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。