論文の概要: Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models
- arxiv url: http://arxiv.org/abs/2604.08545v1
- Date: Thu, 09 Apr 2026 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.082123
- Title: Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models
- Title(参考訳): Act Wisely:エージェントマルチモーダルモデルにおけるメタ認知ツールの育成
- Authors: Shilin Yan, Jintao Tong, Hongwei Xue, Xiaojun Tang, Yangyang Wang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou,
- Abstract要約: HDPOは、ツールの効率を競合するスカラー目標から厳格な条件に書き換えるフレームワークです。
私たちのモデルであるMetisは、推論精度を同時に高めながら、ツールの呼び出しを桁違いに削減します。
- 参考スコア(独自算出の注目度): 27.250148827297604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of agentic multimodal models has empowered systems to actively interact with external environments. However, current agents suffer from a profound meta-cognitive deficit: they struggle to arbitrate between leveraging internal knowledge and querying external utilities. Consequently, they frequently fall prey to blind tool invocation, resorting to reflexive tool execution even when queries are resolvable from the raw visual context. This pathological behavior precipitates severe latency bottlenecks and injects extraneous noise that derails sound reasoning. Existing reinforcement learning protocols attempt to mitigate this via a scalarized reward that penalizes tool usage. Yet, this coupled formulation creates an irreconcilable optimization dilemma: an aggressive penalty suppresses essential tool use, whereas a mild penalty is entirely subsumed by the variance of the accuracy reward during advantage normalization, rendering it impotent against tool overuse. To transcend this bottleneck, we propose HDPO, a framework that reframes tool efficiency from a competing scalar objective to a strictly conditional one. By eschewing reward scalarization, HDPO maintains two orthogonal optimization channels: an accuracy channel that maximizes task correctness, and an efficiency channel that enforces execution economy exclusively within accurate trajectories via conditional advantage estimation. This decoupled architecture naturally induces a cognitive curriculum-compelling the agent to first master task resolution before refining its self-reliance. Extensive evaluations demonstrate that our resulting model, Metis, reduces tool invocations by orders of magnitude while simultaneously elevating reasoning accuracy.
- Abstract(参考訳): エージェント型マルチモーダルモデルの出現により、システムは外部環境と活発に相互作用するようになる。
しかし、現在のエージェントは、内部知識の活用と外部ユーティリティのクエリの仲裁に苦慮している。
その結果、クエリが生の視覚的コンテキストから解決可能である場合でも、反射的なツールの実行に頼って、盲目的のツール呼び出しに陥ることが少なくない。
この病理的挙動は、重度の遅延ボトルネックを発生させ、音の推論を損なう外部ノイズを注入する。
既存の強化学習プロトコルは、ツールの使用を罰するスキャラライズされた報酬によって、これを緩和しようとする。
攻撃的なペナルティは本質的な道具の使用を抑圧し、一方軽度のペナルティは、有利な正規化中に精度の報酬の分散によって完全に仮定され、ツールの過剰使用に対して無力である。
このボトルネックを克服するために,ツールの効率を競合するスカラー目標から厳格な条件に書き換えるフレームワークであるHDPOを提案する。
報酬スカラー化を推し進めることで、HDPOは2つの直交最適化チャネルを維持できる:タスクの正しさを最大化する精度チャネルと、条件付き優位性推定によって正確な軌道内のみに実行経済を強制する効率チャネルである。
この疎結合アーキテクチャは、自己信頼性を改善する前に、エージェントに第一のタスク解決を強制する認知カリキュラムを自然に誘導する。
大規模な評価の結果,結果のモデルであるMetisは,推論精度を同時に高めながら,ツールの実行を桁違いに削減することを示した。
関連論文リスト
- AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - U-CAN: Utility-Aware Contrastive Attenuation for Efficient Unlearning in Generative Recommendation [9.680511155102623]
本稿では,低ランクアダプタで動作する高精度アンラーニングフレームワークであるContrastive AttenuatioN(U-CAN)を提案する。
U-CANは、アクティベーションの対比によってリスクを定量化し、非対称な応答を持つニューロンに焦点をあてる。
ネットワーク構造を断片化する二分法プルーニングとは異なり、U-CANは微分可能な減衰関数を持つ適応性軟減衰を発達させる。
論文 参考訳(メタデータ) (2026-02-26T07:36:11Z) - ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。
LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。
本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文 参考訳(メタデータ) (2026-02-02T06:33:22Z) - Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。
本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。
STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文 参考訳(メタデータ) (2026-01-24T19:36:51Z) - CLEANER: Self-Purified Trajectories Boost Agentic Reinforcement Learning [4.765206163164323]
CLEANERは本質的な自己訂正機能を利用して、データ収集中にエラーに汚染されたコンテキストを除去する。
類似性を考慮した適応ロールバック機構は、クリーンで清浄な軌道を自律的に構築する。
その結果, 平均精度は6%, 3%, 5%であった。
論文 参考訳(メタデータ) (2026-01-21T16:14:30Z) - Anti-Length Shift: Dynamic Outlier Truncation for Training Efficient Reasoning Models [29.56923793047279]
本稿では,冗長トークンを選択的に抑制する訓練時間介入であるDynamic Outlier Truncation(DOT)を紹介する。
DOTは、完全に正しいロールアウトグループ内での応答長の極端のみを目標とし、長い水平推論能力を保っている。
提案手法は,初期ポリシーに比べて精度を高くしながら,推論トークンの使用率を78%削減する。
論文 参考訳(メタデータ) (2026-01-07T14:31:07Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - OFMU: Optimization-Driven Framework for Machine Unlearning [5.100622189286672]
大規模言語モデルは、ユーザ要求、著作権のある資料、時代遅れの情報など、特定の知識を解放する能力を必要としている。
我々は,保留期間を保ちながら忘れを明示的に優先順位付けするペナルティベースの二段階最適化フレームワークOFMUを提案する。
OFMUは既存のアンラーニング手法を有効性と有効性の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-26T15:31:32Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。