Fugu-MT 論文翻訳(概要): RS-Claw: Progressive Active Tool Exploration via Hierarchical Skill Trees for Remote Sensing Agents

論文の概要: RS-Claw: Progressive Active Tool Exploration via Hierarchical Skill Trees for Remote Sensing Agents

arxiv url: http://arxiv.org/abs/2605.13391v1
Date: Wed, 13 May 2026 11:49:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:28.021586
Title: RS-Claw: Progressive Active Tool Exploration via Hierarchical Skill Trees for Remote Sensing Agents
Title（参考訳）: RS-Claw: リモートセンシングエージェントのための階層型スキルツリーによるプログレッシブアクティブツール探索
Authors: Liangtian Liu, Zeyuan Wang, Ziyu Li, Kai Ouyang, Zichao Tang, Chengfu Liu, Haifeng Li, Hanwen Yu, Wentao Yang, Cheng Yang, Dongyang Hou,
Abstract要約: 本稿では、エージェントがツール空間内でアクティブなエクスプローラーとして振る舞うべきであると論じる。ツールエンドでのスキルカプセル化技術を活用することにより,RS-Clawを提案する。このアーキテクチャは、ツール記述を階層的に構成し、エージェントがオンデマンドでシーケンシャルな意思決定を実行できるようにする。
参考スコア（独自算出の注目度）: 14.606770347521008
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rise of multi-modal large language models (MLLMs) is shifting remote sensing (RS) intelligence from "see" to "action", as OpenClaw-style frameworks enable agents to autonomously operate massive RS image-processing tools for complex tasks. Existing RS agents adopt a passive selection paradigm for tool invocation, relying on either full tool registration (Flat) or retrieval-augmented generation (RAG). However, in the massive and multi-source heterogeneous RS tool ecosystem, such passive mechanisms struggle to dynamically balance "context load" and "toolset completeness" throughout task reasoning, thus exhibiting inherent limitations: full tool registration triggers context space deficits during long-horizon tasks, whereas RAG retrieval may omit critical tools in essential steps. To overcome these bottlenecks, this paper redefines tool selection by arguing that the agent should act as an active explorer within the tool space. Based on this perspective, we propose RS-Claw, a novel RS agent architecture. By leveraging Skill encapsulation technology at the tool end, this architecture hierarchically structures tool descriptions, enabling the agent to execute on-demand sequential decision-making: initially selecting relevant skill branches by reading only tool summaries, then dynamically loading detailed descriptions, and ultimately achieving precise invocation. This active paradigm not only significantly liberates the agent's context space but also effectively ensures the accurate hit rate of critical tools during long-horizon reasoning. Systematic experiments on the Earth-Bench benchmark demonstrate that RS-Claw's active exploration mechanism effectively filters semantic noise and substantially frees up reasoning space, achieving an input token compression ratio of up to 86%, and comprehensively outperforming existing Flat and RAG baselines across complex reasoning evaluations.
Abstract（参考訳）: マルチモーダルな大規模言語モデル(MLLM)の台頭は、エージェントが複雑なタスクのために大規模なRS画像処理ツールを自律的に操作できるようにするため、リモートセンシング(RS)インテリジェンスを"シー"から"アクション"にシフトしている。既存のRSエージェントは、フルツール登録(Flat)または検索拡張生成(RAG)のいずれかに依存して、ツール実行のための受動的選択パラダイムを採用している。しかし、大規模なマルチソースの異種RSツールエコシステムでは、このような受動的メカニズムはタスク推論全体を通して動的に"コンテキスト負荷"と"ツールセット完全性"のバランスをとるのに苦労しているため、固有の制限がある。これらのボトルネックを克服するため、本論文では、エージェントがツール空間内でアクティブなエクスプローラーとして振る舞うべきであるとして、ツール選択を再定義する。この観点から,新しいRSエージェントアーキテクチャであるRS-Clawを提案する。ツールの最後にスキルカプセル化技術を活用することで、このアーキテクチャは階層的にツール記述を構造化し、エージェントがオンデマンドのシーケンシャルな意思決定を実行することを可能にする。この活動パラダイムはエージェントのコンテキスト空間を著しく解放するだけでなく、長期的推論において重要なツールの正確なヒット率を効果的に保証する。 Earth-Benchベンチマークのシステマティック実験では、RS-Clawのアクティブな探索機構が意味的ノイズを効果的にフィルタリングし、推論空間を実質的に解放し、入力トークン圧縮比が最大86%に達し、複雑な推論評価を通じて既存のFlatとRAGのベースラインを総合的に上回ることを示した。

関連論文リスト

Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning [16.12114923351562]
エージェントをツールユーザからツールクリエータに変換する,トレーニング不要のフレームワークを提案する。このアプローチは推論の経験を抽出し、再利用可能な資産に蒸留する。ツールライブラリをメンテナンスするためのメモリ統合機構も導入する。
論文参考訳（メタデータ） (2026-02-02T11:37:45Z)
Z-Space: A Multi-Agent Tool Orchestration Framework for Enterprise-Grade LLM Automation [3.518072776386001]
本稿では,データ生成指向型マルチエージェント協調ツール実行フレームワークZ-Spaceを提案する。このフレームワークはElemeプラットフォームの技術部門にデプロイされており、大規模なテストデータ生成シナリオを提供している。生産データは、ツール推論における平均トークン消費を96.26%削減していることを示している。
論文参考訳（メタデータ） (2025-11-23T03:59:14Z)
AutoTool: Efficient Tool Selection for Large Language Model Agents [10.061664247482488]
LLMの推論と意思決定能力を活用することで、複雑なタスクを自動化する強力なツールとして、LLM(Large Language Model)エージェントが登場した。しかしながら、大きなボトルネックは、ツール選択の推論コストの高さにある。特に、各ステップで使用するツールを決定するために、繰り返しLLMを呼び出すReActのようなアプローチでは。ツール使用慣性(Tool use inertia)という重要な経験的観測を生かして、繰り返しLLM推論をバイパスするグラフベースの新しいフレームワークであるAutoToolを提案する。
論文参考訳（メタデータ） (2025-11-18T16:41:48Z)
Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval [49.85856484781787]
本稿では,ILMエージェントを検索プロセスのアクティブマニピュレータに高める新しいパラダイムであるInteract-RAGを紹介する。我々は、ゼロショット実行と相互作用軌跡の合成を可能にする推論強化ワークフローを開発する。 6つのベンチマーク実験により、Interact-RAGは他の高度な手法よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2025-10-31T15:48:43Z)
DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。 LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文参考訳（メタデータ） (2025-10-24T16:24:01Z)
ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.10274552177096]
外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
論文参考訳（メタデータ） (2025-10-09T04:11:16Z)
VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文参考訳（メタデータ） (2025-09-01T01:45:18Z)
RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent [15.836845304125436]
RS-Agentは、人間のユーザーと対話し、専門的なモデルを自律的に活用するように設計されたAIエージェントである。 RS-Agentは、大きな言語モデルに基づく中央コントローラ、ツール実行のための動的ツールキット、タスク固有のエキスパートガイダンスのためのソリューションスペース、ドメインレベルの推論のための知識スペースの4つの重要なコンポーネントを統合している。 9つのデータセットと18のリモートセンシングタスクにわたる大規模な実験により、RS-Agentは最先端のMLLMよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2024-06-11T09:30:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。