論文の概要: Learning When Not to Act: Mitigating Tool Abuse in Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.02132v2
- Date: Tue, 02 Jun 2026 07:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.556524
- Title: Learning When Not to Act: Mitigating Tool Abuse in Agentic Reinforcement Learning
- Title(参考訳): 行動しないときの学習: エージェント強化学習におけるツール使用の軽減
- Authors: Liuji Chen, Dianxing Tang, Xing Shi, Dingshuo Chen, Qiang Liu, Shu Wu, Liang Wang,
- Abstract要約: エージェント強化学習は、内部推論によって解決可能なクエリであっても、モデルが外部ツールを過剰に使用するツールの乱用を引き起こす可能性がある。
本稿では,効率的なエージェントポリシー最適化フレームワークEAPOを提案する。
GRPOと比較して、EAPOは平均パフォーマンスを10.45%、7.27%、9.69%改善し、平均ツールコールを18.33%、18.33%、および24.59%削減した。
- 参考スコア(独自算出の注目度): 26.34952204312613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic reinforcement learning can induce tool abuse, where models overuse external tools even for queries solvable by internal reasoning. Existing approaches mitigate this issue with uniform tool-use penalties or hard limits, which reduce tool frequency but may also suppress useful tool-assisted exploration. We propose EAPO, an Efficient Agentic Policy Optimization framework that learns selective tool use. EAPO introduces tool-free trajectories into each rollout group, applies difficulty-aware reward shaping to penalize redundant tool calls mainly on easier queries, and uses confidence-aware token reweighting to improve policy learning. Across nine mathematical and knowledge-intensive reasoning benchmarks, EAPO consistently improves the accuracy efficiency trade-off on Qwen2.5-3B, Qwen2.5-7B, and Llama3.1-8B. Compared with GRPO, EAPO improves average performance by 10.45%, 7.27%, and 9.69%, while reducing average tool calls by 18.33%, 18.33%, and 24.59%, respectively. These results show that agents can learn when not to use tools without compromising tool-integrated reasoning.
- Abstract(参考訳): エージェント強化学習は、内部推論によって解決可能なクエリに対しても、モデルが外部ツールを過剰に使用するツールの乱用を引き起こす可能性がある。
既存のアプローチは、ツール使用の罰則やハードリミットによってこの問題を緩和し、ツールの頻度を減少させるが、ツールアシスト探索を効果的に抑制する可能性がある。
本稿では,効率的なエージェントポリシー最適化フレームワークEAPOを提案する。
EAPOは、各ロールアウトグループにツールフリーなトラジェクトリを導入し、より簡単なクエリを中心に冗長なツールコールをペナルティ化するために、難易度対応の報酬シェーピングを適用し、ポリシー学習を改善するために、自信対応のトークン再重み付けを使用する。
9つの数学的および知識集約的な推論ベンチマークの中で、EAPOはQwen2.5-3B、Qwen2.5-7B、Llama3.1-8Bの精度効率トレードオフを一貫して改善している。
GRPOと比較して、EAPOは平均パフォーマンスを10.45%、7.27%、9.69%改善し、平均ツールコールを18.33%、18.33%、および24.59%削減した。
これらの結果から,エージェントはツール統合推論を損なうことなく,ツールを使わずに学習できることが示唆された。
関連論文リスト
- Teaching Thinking Models to Reason with Tools: A Full-Pipeline Recipe for Tool-Integrated Reasoning [59.74608632210439]
そこで本研究では,ツール使用の自然な動作を,ツールなし推論能力を犠牲にすることなく,強力な思考モデルに注入する方法を示す。
提案手法は,オープンソースモデル間のベンチマークにおいて,最先端のパフォーマンスを実現するモデルを生成する。
論文 参考訳(メタデータ) (2026-05-07T14:23:21Z) - AdaTIR: Adaptive Tool-Integrated Reasoning via Difficulty-Aware Policy Optimization [0.0]
現在のエージェントは認知的オフロードを示し、単純なタスクであっても外部ツールを冗長に呼び出す。
本稿では,静的ツール呼び出しから内部化の難易度を考慮した推論へパラダイムをシフトするフレームワークを提案する。
AdaTIRは、ツールアクセスが厳格に無効化されている場合でも、AIME 2024のベースラインを4.8%上回る推論を成功させる。
論文 参考訳(メタデータ) (2026-01-21T06:18:46Z) - Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。
具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。
第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文 参考訳(メタデータ) (2025-06-05T04:35:49Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - SMART: Self-Aware Agent for Tool Overuse Mitigation [58.748554080273585]
現在のLarge Language Model (LLM) エージェントは、強力な推論とツールの使用能力を示すが、しばしば自己認識に欠ける。
この不均衡はツール・オーバーユースにつながり、モデルはパラメトリックな知識を持つタスクに対して、不要に外部ツールに依存する。
SMART(Strategic Model-Aware Reasoning with Tools)は、エージェントの自己認識を高め、タスクハンドリングを最適化し、ツールの過剰使用を減らすパラダイムである。
論文 参考訳(メタデータ) (2025-02-17T04:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。