論文の概要: Flexible Tool Selection through Low-dimensional Attribute Alignment of Vision and Language
- arxiv url: http://arxiv.org/abs/2505.22146v2
- Date: Tue, 10 Jun 2025 05:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.086626
- Title: Flexible Tool Selection through Low-dimensional Attribute Alignment of Vision and Language
- Title(参考訳): 視覚と言語による低次元属性アライメントによる柔軟なツール選択
- Authors: Guangfu Hao, Haojie Wen, Liangxuna Guo, Yang Chen, Yanchao Bi, Shan Yu,
- Abstract要約: 柔軟なツール選択は、人間が他の種と区別する複雑な認知能力を反映している。
視覚的ツール認識と言語的タスク理解を橋渡しするために,低次元属性表現を用いたフレームワークを開発した。
- 参考スコア(独自算出の注目度): 9.378472434981088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flexible tool selection reflects a complex cognitive ability that distinguishes humans from other species, yet computational models that capture this ability remain underdeveloped. We developed a framework using low-dimensional attribute representations to bridge visual tool perception and linguistic task understanding. We constructed a comprehensive dataset (ToolNet) containing 115 common tools labeled with 13 carefully designed attributes spanning physical, functional, and psychological properties, paired with natural language scenarios describing tool usage. Visual encoders (ResNet or ViT) extract attributes from tool images while fine-tuned language models (GPT-2, LLaMA, DeepSeek) derive required attributes from task descriptions. Our approach achieves 74% accuracy in tool selection tasks-significantly outperforming direct tool matching (20%) and smaller multimodal models (21%-58%), while approaching performance of much larger models like GPT-4o (73%) with substantially fewer parameters. Ablation studies revealed that manipulation-related attributes (graspability, hand-relatedness, elongation) consistently prove most critical across modalities. This work provides a parameter-efficient, interpretable solution that mimics human-like tool cognition, advancing both cognitive science understanding and practical applications in tool selection tasks.
- Abstract(参考訳): 柔軟なツール選択は、人間と他の種を区別する複雑な認知能力を反映しているが、この能力を捉える計算モデルは未発達のままである。
視覚的ツール認識と言語的タスク理解を橋渡しするために,低次元属性表現を用いたフレームワークを開発した。
ツール使用法を記述した自然言語シナリオと組み合わせて,身体的,機能的,心理的特性にまたがる13の慎重に設計された属性をラベル付けした115の共通ツールを含む包括的なデータセット(ToolNet)を構築した。
ビジュアルエンコーダ(ResNetまたはViT)はツールイメージから属性を抽出し、微調整言語モデル(GPT-2、LLaMA、DeepSeek)はタスク記述から必要な属性を抽出する。
提案手法は, GPT-4o (73%) などの大規模モデルのパラメータが大幅に少ない場合, 直接ツールマッチング (20%) と小型マルチモーダルモデル (21%-58%) で74%の精度を実現している。
アブレーション研究により、操作関連属性(移植性、手近性、伸長性)がモダリティにおいて常に最も重要であることが判明した。
この研究は、ヒューマンライクなツール認知を模倣し、認知科学の理解とツール選択タスクにおける実践的応用の両方を前進させるパラメータ効率のよい、解釈可能なソリューションを提供する。
関連論文リスト
- ToolSpectrum : Towards Personalized Tool Utilization for Large Language Models [48.276461194773354]
ToolSpectrumは、大規模言語モデルのパーソナライズされたツール利用能力を評価するために設計されたベンチマークである。
我々は、パーソナライズ、ユーザプロファイル、環境要因の2つの重要な側面を定式化し、ツール利用に対する個人的およびシナジスティックな影響を分析する。
ツール強化LDMにおけるコンテキスト認識のパーソナライズの必要性を浮き彫りにして,現行モデルに対する限界を明らかにした。
論文 参考訳(メタデータ) (2025-05-19T14:30:46Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - SMART: Self-Aware Agent for Tool Overuse Mitigation [58.748554080273585]
現在のLarge Language Model (LLM) エージェントは、強力な推論とツールの使用能力を示すが、しばしば自己認識に欠ける。
この不均衡はツール・オーバーユースにつながり、モデルはパラメトリックな知識を持つタスクに対して、不要に外部ツールに依存する。
SMART(Strategic Model-Aware Reasoning with Tools)は、エージェントの自己認識を高め、タスクハンドリングを最適化し、ツールの過剰使用を減らすパラダイムである。
論文 参考訳(メタデータ) (2025-02-17T04:50:37Z) - CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance [17.723293304671877]
コンポーネントベースツール活用能力注入法(CITI)を提案する。
異なるコンポーネントの勾配に基づく重要度スコアによると、CITIは微調整プロセスによって生じる能力衝突を軽減する。
実験結果から,本手法は様々な評価指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-20T04:06:28Z) - MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation [25.360660222418183]
再利用可能なツールセットにまたがって一般化するために設計された,新しいツール学習手法であるMetaToolを紹介する。
メタタスクデータをタスク指向トレーニングに組み込むことで,オープンソースの大規模言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-15T10:15:41Z) - TOOLVERIFIER: Generalization to New Tools via Self-Verification [69.85190990517184]
本稿では,ツール選択中にコントラスト質問を自己問合せすることで,近接候補を識別する自己検証手法を提案する。
ToolBenchベンチマークによる4つのタスクの実験では、17の見えないツールで構成されており、数ショットのベースラインよりも平均22%改善されている。
論文 参考訳(メタデータ) (2024-02-21T22:41:38Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - ToolAlpaca: Generalized Tool Learning for Language Models with 3000
Simulated Cases [49.7798644853604]
本稿では,多種多様なツール利用コーパスを自動生成し,コンパクト言語モデル上での汎用ツール利用能力を学習するためのフレームワークであるToolAlpacaを紹介する。
ToolAlpacaは,GPT-3.5のような非常に大きな言語モデルに匹敵する,効果的な汎用ツール利用能力を実現する。
論文 参考訳(メタデータ) (2023-06-08T15:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。