論文の概要: What Does Vision Tool-Use Reinforcement Learning Really Learn? Disentangling Tool-Induced and Intrinsic Effects for Crop-and-Zoom
- arxiv url: http://arxiv.org/abs/2602.01334v1
- Date: Sun, 01 Feb 2026 17:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.719987
- Title: What Does Vision Tool-Use Reinforcement Learning Really Learn? Disentangling Tool-Induced and Intrinsic Effects for Crop-and-Zoom
- Title(参考訳): 視覚ツールを用いた強化学習は本当に何を学べるか?
- Authors: Yan Ma, Weiyu Zhang, Tianle Li, Linge Du, Xuyang Shen, Pengfei Liu,
- Abstract要約: MED (Measure-Explain-Diagnose) を導入し, 道具誘発効果による内在能力の変化を解消した。
ツール・ユース・RLはツールによるダメージを主に軽減するのに対し、改善は本質的な学習に支配されている。
全体として、現在の視覚ツール使用RLは、それをマスターするのではなく、安全にツールと共存することを学ぶ。
- 参考スコア(独自算出の注目度): 26.940122024948597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision tool-use reinforcement learning (RL) can equip vision-language models with visual operators such as crop-and-zoom and achieves strong performance gains, yet it remains unclear whether these gains are driven by improvements in tool use or evolving intrinsic capabilities.We introduce MED (Measure-Explain-Diagnose), a coarse-to-fine framework that disentangles intrinsic capability changes from tool-induced effects, decomposes the tool-induced performance difference into gain and harm terms, and probes the mechanisms driving their evolution. Across checkpoint-level analyses on two VLMs with different tool priors and six benchmarks, we find that improvements are dominated by intrinsic learning, while tool-use RL mainly reduces tool-induced harm (e.g., fewer call-induced errors and weaker tool schema interference) and yields limited progress in tool-based correction of intrinsic failures. Overall, current vision tool-use RL learns to coexist safely with tools rather than master them.
- Abstract(参考訳): 視覚ツール利用強化学習(RL)は、視覚言語モデルに作物・動物などの視覚的演算子を組み込むことができ、高い性能向上を達成できるが、これらのゲインがツール使用の改善や内在的能力の進化によって引き起こされているかどうかは不明であり、ツール誘発効果から内在的能力変化を阻害する粗大化フレームワークであるMED(Measure-Explain-Diagnose)を導入し、ツール誘導性能差を利得と害点に分解し、それらの進化を駆動するメカニズムを探索する。
ツールプリエントと6つのベンチマークを持つ2つのVLMのチェックポイントレベル解析では、改善は内在的学習が中心であり、ツールユースRLは主にツールによる障害(例えば、呼び出しによるエラーが少なく、ツールスキーマの干渉が弱い)を減らし、内在的障害の修正においてツールベースの修正が限定的に進行することがわかった。
全体として、現在の視覚ツール使用RLは、それをマスターするのではなく、安全にツールと共存することを学ぶ。
関連論文リスト
- AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。
具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。
第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文 参考訳(メタデータ) (2025-06-05T04:35:49Z) - ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution [77.86222359025011]
ツール学習のための自己改善フレームワークであるToolACE-DEVを提案する。
まず、ツール学習の目的を、基本的なツール作成とツール利用能力を高めるサブタスクに分解する。
次に、軽量モデルによる自己改善を可能にする自己進化パラダイムを導入し、高度なLCMへの依存を減らす。
論文 参考訳(メタデータ) (2025-05-12T12:48:30Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Reducing Tool Hallucination via Reliability Alignment [31.761771794788462]
大きな言語モデル(LLM)は、言語生成を超えて、外部ツールと対話し、自動化と現実世界のアプリケーションを可能にする機能を拡張した。
モデルが不適切なツールを選択するか、それらを誤用するツール幻覚は、誤ったタスクの実行、計算コストの増大、システムの信頼性の低下につながる重要な課題を引き起こす。
RelyToolBenchを導入し、特殊なテストケースと新しいメトリクスを統合し、幻覚を意識したタスクの成功と効率を評価する。
最後に、信頼性アライメントフレームワークであるRelignを提案する。このフレームワークは、ツール使用のアクション空間を拡張して、不決定なアクションを含むようにし、LCMがツールの使用を遅らせたり、明確化を求めたり、ツールの選択を調整することを可能にする。
論文 参考訳(メタデータ) (2024-12-05T13:10:54Z) - CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance [17.723293304671877]
コンポーネントベースツール活用能力注入法(CITI)を提案する。
異なるコンポーネントの勾配に基づく重要度スコアによると、CITIは微調整プロセスによって生じる能力衝突を軽減する。
実験結果から,本手法は様々な評価指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-20T04:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。