論文の概要: Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2602.02050v1
- Date: Mon, 02 Feb 2026 12:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.151195
- Title: Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents
- Title(参考訳): 大規模言語モデルエージェントのツール使用行動最適化におけるエントロピーの役割の再考
- Authors: Zeping Li, Hongru Wang, Yiwen Zhao, Guanhua Chen, Yixia Li, Keyang Chen, Yixin Cao, Guangnan Ye, Hongfeng Chai, Mengdi Wang, Zhenfei Yin,
- Abstract要約: LLM(Large Language Models)に基づくツール利用エージェントは、数学的推論やマルチホップ質問応答といったタスクに優れる。
長い道のりでは、エージェントはしばしば過度で低品質なツールコールをトリガーし、レイテンシを増大させ、推論性能を低下させる。
本稿では,エントロピー低減を監視信号として使用し,ツール使用行動の最適化ニーズに対処する2つの報奨戦略を設計する。
- 参考スコア(独自算出の注目度): 54.18201810286764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-using agents based on Large Language Models (LLMs) excel in tasks such as mathematical reasoning and multi-hop question answering. However, in long trajectories, agents often trigger excessive and low-quality tool calls, increasing latency and degrading inference performance, making managing tool-use behavior challenging. In this work, we conduct entropy-based pilot experiments and observe a strong positive correlation between entropy reduction and high-quality tool calls. Building on this finding, we propose using entropy reduction as a supervisory signal and design two reward strategies to address the differing needs of optimizing tool-use behavior. Sparse outcome rewards provide coarse, trajectory-level guidance to improve efficiency, while dense process rewards offer fine-grained supervision to enhance performance. Experiments across diverse domains show that both reward designs improve tool-use behavior: the former reduces tool calls by 72.07% compared to the average of baselines, while the latter improves performance by 22.27%. These results position entropy reduction as a key mechanism for enhancing tool-use behavior, enabling agents to be more adaptive in real-world applications.
- Abstract(参考訳): LLM(Large Language Models)に基づくツール利用エージェントは、数学的推論やマルチホップ質問応答といったタスクに優れる。
しかし、長い道のりでは、エージェントはしばしば過度で低品質なツールコールをトリガーし、レイテンシを増大させ、推論性能を低下させ、ツール使用行動の管理を困難にする。
本研究では,エントロピーに基づくパイロット実験を行い,エントロピー低減と高品質ツールコールの強い正の相関を観察する。
そこで本研究では,エントロピー低減を監視信号として利用し,ツール使用行動の最適化ニーズに対処する2つの報奨戦略を設計する。
粗い結果報酬は、粗い軌道レベルのガイダンスを提供し、効率を改善する一方、密集したプロセス報酬は、パフォーマンスを高めるためのきめ細かい監督を提供する。
前者はベースラインの平均よりもツールコールを72.07%削減し、後者はパフォーマンスを22.27%改善した。
これらの結果から, エントロピー低減がツール使用行動の促進の鍵となる機構となり, エージェントが現実のアプリケーションに適応しやすくなった。
関連論文リスト
- Reasoning and Tool-use Compete in Agentic RL:From Quantifying Interference to Disentangled Tuning [26.401906729658688]
Agentic Reinforcement Learning (ARL) は、複雑なタスクを解決するために、推論と外部ツールの実行をインターリーブするために、大きな言語モデルをトレーニングすることに焦点を当てている。
ほとんどの既存のARLメソッドは、推論とツールの使用行動の両方をサポートするために単一の共有モデルパラメータをトレーニングしている。
これらの2つの能力は、しばしば不整合勾配方向を誘導し、共同最適化の有効性を損なう訓練の干渉を引き起こす。
DART(Disentangled Action Reasoning Tuning)は、推論のためのパラメータ更新とツール使用を分離したローランクで明示的に分離する、シンプルで効率的なフレームワークである。
論文 参考訳(メタデータ) (2026-02-01T03:19:22Z) - Optimizing Agentic Workflows using Meta-tools [3.3298825663516403]
Agentic AIは、LLMが複雑なタスクを解決するためのツールを動的に推論し、計画し、相互作用することを可能にする。
この作業では、冗長なツール実行パターンを特定し、最適化するフレームワークであるAWO(Agent Optimization)を導入している。
AWO は LLM の呼び出し回数を 11.9% まで削減し、タスク成功率を 4.2% まで引き上げている。
論文 参考訳(メタデータ) (2026-01-29T17:43:08Z) - Tool-Augmented Policy Optimization: Synergizing Reasoning and Adaptive Tool Use with Reinforcement Learning [29.280386584974455]
大規模言語モデル(LLM)の最近の進歩はテスト時間スケーリングを普及させ、モデルが最終回答を生成する前にさらなる推論トークンを生成する。
これらの手法は、数学的推論を含むベンチマークにおいて顕著な性能向上を示した。
本稿では,マルチホップ推論と適応型ツールコール機能を統合した新しい強化学習フレームワークであるツール拡張ポリシー最適化(TAPO)を提案する。
論文 参考訳(メタデータ) (2025-10-08T14:04:27Z) - Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning [68.89572566071575]
Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。
10個のデータセットの実験結果は、ツールライトの有効性を示している。
論文 参考訳(メタデータ) (2025-09-27T12:53:37Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。