論文の概要: Diversity Over Frequency: Rethinking Tool Use in Visual Chain-of-Thought Agents
- arxiv url: http://arxiv.org/abs/2606.00096v2
- Date: Tue, 02 Jun 2026 05:03:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.26367
- Title: Diversity Over Frequency: Rethinking Tool Use in Visual Chain-of-Thought Agents
- Title(参考訳): 周波数の多様性:ビジュアル・チェーン・オブ・サート・エージェントで使用されるツールを再考する
- Authors: Dong-Hee Kim, Reuben Tan, Donghyun Kim,
- Abstract要約: 視覚エージェントは、微粒な証拠を組み込むために、思考の視覚連鎖の中で外部視覚ツールを使用する。
本稿では,3次元空間推論や医用視覚質問応答など,より困難な課題を探索するために,単純な視覚探索タスクを超えて進める。
モデルは、高いタスク精度を達成しながら、ツールの使用を徐々に停止する。
バニラトレーニングとツール使用促進の両方がロールアウトの多様性を減らし、ツールの使用率が向上しない理由を説明する。
- 参考スコア(独自算出の注目度): 8.575257729172202
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual agents employ external visual tools within visual chains of thought to incorporate fine-grained evidence. While prior work has mainly studied these tools in visual search tasks, their role in more complex visual reasoning remains underexplored. In this paper, we move beyond simple visual search tasks to investigate more challenging tasks, including 3D spatial reasoning and medical visual question answering, where agents must integrate tool-acquired local evidence with the global context. We identify a {tool-use collapse phenomenon: models progressively stop using tools while still achieving higher task accuracy. Moreover, we observe a clear asymmetry: (i) completely eliminating tool use degrades performance, whereas (ii) incentivizing tool use yields only marginal gains despite substantially increasing usage. We find that vanilla training and tool-use encouragement both reduce rollout diversity, explaining why higher tool use does not yield stronger reasoning performance. Motivated by these findings, we add an entropy regularization term to encourage diverse rollout exploration, achieving the best performance despite gradually declining tool usage. Overall, our findings suggest a training-time view of tools as scaffolding, where broader exploration over language generation and visual tool invocation improves reasoning despite tool-use collapse. Project page: https://scaffolded-exploration.github.io
- Abstract(参考訳): 視覚エージェントは、微粒な証拠を組み込むために、思考の視覚連鎖の中で外部視覚ツールを使用する。
以前の研究は主に視覚検索タスクにおいてこれらのツールを研究してきたが、より複雑な視覚的推論におけるそれらの役割はいまだに解明されていない。
本稿では,3次元空間推論や医用視覚質問応答など,簡単なビジュアル検索タスクを超えて,エージェントがツール獲得したローカルエビデンスをグローバルな文脈に統合しなければならない課題について検討する。
モデルでは,タスクの精度を向上しながら,ツールの使用を徐々に停止させる。
さらに、明確な非対称性を観察する。
(i)ツールの使用が性能を低下させるのに対し、完全に排除する
(二)ツール使用のインセンティブは、使用量が著しく増加したにもかかわらず、限界利得しか得られない。
バニラトレーニングとツール使用促進の両方がロールアウトの多様性を減らし、ツールの使用率が向上しない理由を説明する。
これらの結果から,多種多様なロールアウト探索を促進するために,エントロピー正規化項を追加し,ツール使用率の低下にもかかわらず,最高の性能を達成した。
全体としては,ツールを足場としてトレーニングする時間的視点が示唆され,言語生成や視覚的ツールの実行に関する広範な調査が,ツール使用の崩壊にもかかわらず推論を改善する。
プロジェクトページ: https://scaffolded-exploration.github.io
関連論文リスト
- Visual Reasoning through Tool-supervised Reinforcement Learning [18.76805336754779]
本稿では,より効果的なツール・ユース・ラーニングのためのツール・インシュアランス(ToolsRL)フレームワークを提案する。
ズームイン、ローテーション、フリップ、ドローポイント/ラインなど、シンプルな、ネイティブで、解釈可能な一連のビジュアルツールに重点を置いています。
強化学習カリキュラムが開発され、第1段階は、モチベーションの高いツール固有の報酬セットによってのみ最適化され、第2段階は、通話ツールを許可しながら、精度の高い目標報酬で訓練される。
論文 参考訳(メタデータ) (2026-04-21T19:48:19Z) - The Tool Illusion: Rethinking Tool Use in Web Agents [60.49303190288166]
我々は、広範囲かつ慎重に制御された研究を通じて、Webエージェントにおけるツールの使用を再考する。
いずれの結論も事前の結論を再検討し, より広範な証拠で他の結論を補完した。
論文 参考訳(メタデータ) (2026-04-03T21:18:26Z) - AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - Transductive Visual Programming: Evolving Tool Libraries from Experience for Spatial Reasoning [63.071280297939005]
提案するTransductive Visual Programming (TVP, Transductive Visual Programming) は、投機ではなく、独自の経験から新しいツールを構築する新しいフレームワークである。
TVPは最先端のパフォーマンスを達成し、GPT-4oを22%上回り、以前の最高のビジュアルプログラミングシステムを11%上回っている。
私たちの研究は、自己進化型ビジュアルプログラミングエージェントを構築するための強力なパラダイムとして、経験駆動型トランスダクティブツールの作成を確立します。
論文 参考訳(メタデータ) (2025-12-24T04:30:21Z) - Tool Graph Retriever: Exploring Dependency Graph-based Tool Retrieval for Large Language Models [43.50789219459378]
ツール間の依存関係を利用して、検索のためのより良いツール表現を学習するツールグラフ検索(TGR)を提案する。
まず、TDI300Kと呼ばれるデータセットを構築し、ツール依存を識別するための識別器を訓練する。
そして、すべての候補ツールをツール依存グラフとして表現し、グラフ畳み込みを使って依存関係を表現に統合します。
論文 参考訳(メタデータ) (2025-08-07T08:36:26Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - What Are Tools Anyway? A Survey from the Language Model Perspective [67.18843218893416]
言語モデル(LM)は強力だが、主にテキスト生成タスクに向いている。
LMが使用する外部プログラムとしてツールを統一的に定義する。
各種ツールの効率を実証的に検討した。
論文 参考訳(メタデータ) (2024-03-18T17:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。