論文の概要: Enabling Extensible Embodied Capabilities with Tools
- arxiv url: http://arxiv.org/abs/2605.26637v1
- Date: Tue, 26 May 2026 07:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.722551
- Title: Enabling Extensible Embodied Capabilities with Tools
- Title(参考訳): ツールによる拡張性身体機能の実現
- Authors: Xueyang Zhou, Zijia Wang, Qianjiang Li, Yibo Hu, Guiyao Tie, Li Wan, Yidan Liu, Pan Zhou, Lichao Sun, Yongchao Chen,
- Abstract要約: エンボディード・インテリジェンス(Embodied Intelligence)は、統一されたパラメータ化されたポリシーの中で知覚、推論、計画、制御を定式化する。
本稿では,異種機能を独立に最適化したツールに分解し,推論時に動的に起動する機能外化手法を提案する。
- 参考スコア(独自算出の注目度): 29.084279305733336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing embodied intelligence methods formulate perception, reasoning, planning, and control within a unified parameterized policy. Yet these capabilities are inherently hierarchical and heterogeneous, making them difficult to reliably learn and modularize within a single model. We propose a capability externalization approach that decouples heterogeneous capabilities into independently optimized tools, dynamically invoked at inference time. To this end, we introduce Embodied Tool Protocol (ETP), a standardized protocol for embodied tool registration, discovery, invocation, and execution, and curate 100+ validated tools spanning perception, cognition, reasoning, and execution as the tool base. Building on this, we construct EmbodiedToolBench to evaluate both whether tool augmentation improves embodied performance and how well current models use tools across tool-necessity recognition, tool selection, tool execution, and tool-chain composition. Experiments across simulation and real-world platforms confirm that capability externalization consistently improves embodied performance (avg. gain 31% on EB-ALFRED and 36% on EB-Navigation), yet reveal a clear boundary: gains are substantial for cognition and perception but are limited for execution-type capabilities. Moreover, our analysis reveals that knowing when, which, and how to invoke tools remains a persistent challenge across all models, thereby highlighting embodied tool competence as a critical direction for future research.
- Abstract(参考訳): 既存のインボディードインテリジェンス手法は、統一されたパラメータ化ポリシー内での知覚、推論、計画、制御を定式化する。
しかし、これらの機能は本質的に階層的で異種であるため、単一のモデル内で確実に学習し、モジュール化することは困難である。
本稿では,異種機能を独立に最適化したツールに分解し,推論時に動的に起動する機能外化手法を提案する。
この目的のために、ツール登録、発見、呼び出し、実行を具現化するための標準化されたプロトコルであるEmbodied Tool Protocol (ETP)を導入し、ツールベースとして認識、認知、推論、実行にまたがる100以上の検証済みツールをキュレートする。
これに基づいて、EmbodiedToolBenchを構築し、ツール拡張が具体的パフォーマンスを改善したかどうか、そして現在のモデルがツール必要認識、ツール選択、ツール実行、ツールチェーン構成にわたっていかにツールをうまく使っているかを評価する。
シミュレーションや実世界のプラットフォームでの実験では、能力の外部化が常に実施性能を改善する(EB-ALFREDでは31%、EB-Navigationでは36%)。
さらに,どのツールをいつ,どのように呼び出すかを知ることは,すべてのモデルにおいて永続的な課題であり,将来の研究にとって重要な方向として具体化ツールの能力を強調している。
関連論文リスト
- ToolOmni: Enabling Open-World Tool Use via Agentic learning with Proactive Retrieval and Grounded Execution [49.30293260493709]
大きな言語モデル(LLM)は、外部ツールを利用することで問題解決能力を高める。
静的埋め込み検索やパラメータ記憶に頼っている既存の手法は、ユーザの意図をツールのセマンティクスに合わせるのに苦労している。
提案するツールOmniは,プロアクティブ検索とグラウンドド実行により,オープンワールドツール利用のためのLLMを実現する統合エージェントフレームワークである。
論文 参考訳(メタデータ) (2026-04-15T12:26:10Z) - Open, Reliable, and Collective: A Community-Driven Framework for Tool-Using AI Agents [22.64138018985385]
我々は、失敗は、ツール使用精度(エージェントがどのようにツールを呼び出すか)と固有のツール精度(ツール自身の正確性)の両方から生じると論じている。
ツールスキーマを標準化するコミュニティ主導のツールボックスであるOpenToolsを紹介します。
OpenToolsには、コアフレームワーク、初期ツールセット、評価パイプライン、コントリビューションプロトコルが含まれている。
論文 参考訳(メタデータ) (2026-03-31T18:42:36Z) - Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning [16.12114923351562]
エージェントをツールユーザからツールクリエータに変換する,トレーニング不要のフレームワークを提案する。
このアプローチは推論の経験を抽出し、再利用可能な資産に蒸留する。
ツールライブラリをメンテナンスするためのメモリ統合機構も導入する。
論文 参考訳(メタデータ) (2026-02-02T11:37:45Z) - AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - ToolACE-R: Model-aware Iterative Training and Adaptive Refinement for Tool Learning [84.69651852838794]
ツール学習により、LLM(Large Language Models)は複雑なユーザタスクを解決するための外部ツールを活用することができる。
本稿では,ツール学習のための反復学習と適応的洗練の両方を含む新しいフレームワークであるToolACE-Rを提案する。
我々は、いくつかのベンチマークデータセットにわたる広範な実験を行い、ToolACE-Rが高度なAPIベースのモデルと比較して、競争力のあるパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-04-02T06:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。