論文の概要: PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs
- arxiv url: http://arxiv.org/abs/2510.09507v1
- Date: Fri, 10 Oct 2025 16:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.332975
- Title: PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs
- Title(参考訳): PhysToolBench:MLLMの物理ツール理解のベンチマーク
- Authors: Zixin Zhang, Kanghao Chen, Xingwang Lin, Lutao Jiang, Xu Zheng, Yuanhuiyi Lyu, Litao Guo, Yinchuan Li, Ying-Cong Chen,
- Abstract要約: MLLMによる物理ツールの理解度を評価するための最初のベンチマークであるPhysToolBenchを紹介する。
我々のベンチマークは、1000以上の画像テキストペアからなるVisual Question Answering (VQA)データセットとして構成されている。
1)ツール認識:ツールの一次機能を認識する必要がある。
(2) ツール理解: ツール操作の根底にある原則を理解する能力をテストする。
- 参考スコア(独自算出の注目度): 46.62285836344724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to use, understand, and create tools is a hallmark of human intelligence, enabling sophisticated interaction with the physical world. For any general-purpose intelligent agent to achieve true versatility, it must also master these fundamental skills. While modern Multimodal Large Language Models (MLLMs) leverage their extensive common knowledge for high-level planning in embodied AI and in downstream Vision-Language-Action (VLA) models, the extent of their true understanding of physical tools remains unquantified. To bridge this gap, we present PhysToolBench, the first benchmark dedicated to evaluating the comprehension of physical tools by MLLMs. Our benchmark is structured as a Visual Question Answering (VQA) dataset comprising over 1,000 image-text pairs. It assesses capabilities across three distinct difficulty levels: (1) Tool Recognition: Requiring the recognition of a tool's primary function. (2) Tool Understanding: Testing the ability to grasp the underlying principles of a tool's operation. (3) Tool Creation: Challenging the model to fashion a new tool from surrounding objects when conventional options are unavailable. Our comprehensive evaluation of 32 MLLMs-spanning proprietary, open-source, specialized embodied, and backbones in VLAs-reveals a significant deficiency in tool understanding. Furthermore, we provide an in-depth analysis and propose preliminary solutions. Code and dataset are publicly available.
- Abstract(参考訳): ツールの使用、理解、作成は人間の知能の目印であり、物理的な世界との高度な相互作用を可能にする。
汎用的な知的エージェントが真の汎用性を達成するためには、これらの基本的なスキルを習得する必要がある。
現代のマルチモーダル大言語モデル(MLLM)は、エンボディドAIや下流のビジョン・ランゲージ・アクション(VLA)モデルにおいて、その広範な共通知識を活用しているが、物理的なツールに対する真の理解の範囲はいまだに不明である。
このギャップを埋めるために、MLLMによる物理的なツールの理解を評価するための最初のベンチマークであるPhysToolBenchを紹介する。
我々のベンチマークは、1000以上の画像テキストペアからなるVisual Question Answering (VQA)データセットとして構成されている。
1)ツール認識:ツールの一次機能を認識する必要がある。
(2) ツール理解: ツール操作の根底にある原則を理解する能力をテストする。
(3) ツール作成: 従来のオプションが利用できない場合、モデルをチェアリングして、周囲のオブジェクトから新しいツールをファッショニングする。
VLAのプロプライエタリ,オープンソース,特殊エンボディ,バックボーン32種の総合的評価は,ツール理解に欠如している。
さらに, 詳細な解析を行い, 予備解を提案する。
コードとデータセットが公開されている。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。
ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。
調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文 参考訳(メタデータ) (2024-09-24T14:08:11Z) - MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation [25.360660222418183]
再利用可能なツールセットにまたがって一般化するために設計された,新しいツール学習手法であるMetaToolを紹介する。
メタタスクデータをタスク指向トレーニングに組み込むことで,オープンソースの大規模言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-15T10:15:41Z) - Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models [26.28459880766842]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。
具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。
提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文 参考訳(メタデータ) (2024-02-26T16:11:03Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。