論文の概要: ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration
- arxiv url: http://arxiv.org/abs/2601.06860v1
- Date: Sun, 11 Jan 2026 11:05:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.035022
- Title: ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration
- Title(参考訳): ET-Agent:行動校正による効果的な工具混入型推論エージェントのインセンティブ化
- Authors: Yifei Chen, Guanting Dong, Zhicheng Dou,
- Abstract要約: ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
- 参考スコア(独自算出の注目度): 68.89572566071575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can extend their parameter knowledge limits by adopting the Tool-Integrated Reasoning (TIR) paradigm. However, existing LLM-based agent training framework often focuses on answers' accuracy, overlooking specific alignment for behavior patterns. Consequently, agent often exhibits ineffective actions during TIR tasks, such as redundant and insufficient tool calls. How to calibrate erroneous behavioral patterns when executing TIR tasks, thereby exploring effective trajectories, remains an open-ended problem. In this paper, we propose ET-Agent, a training framework for calibrating agent's tool-use behavior through two synergistic perspectives: Self-evolving Data Flywheel and Behavior Calibration Training. Specifically, we introduce a self-evolutionary data flywheel to generate enhanced data, used to fine-tune LLM to improve its exploration ability. Based on this, we implement an two-phases behavior-calibration training framework. It is designed to progressively calibrate erroneous behavioral patterns to optimal behaviors. Further in-depth experiments confirm the superiority of \ourmodel{} across multiple dimensions, including correctness, efficiency, reasoning conciseness, and tool execution accuracy. Our ET-Agent framework provides practical insights for research in the TIR field. Codes can be found in https://github.com/asilverlight/ET-Agent
- Abstract(参考訳): 大規模言語モデル(LLM)は、TIR(Tool-Integrated Reasoning)パラダイムを採用することで、パラメータの知識限界を拡張することができる。
しかし、既存のLLMベースのエージェントトレーニングフレームワークは、しばしば回答の正確さに焦点を合わせ、行動パターンの特定のアライメントを見下ろしている。
その結果、エージェントはしばしば、冗長で不十分なツールコールのようなTIRタスク中に非効果的なアクションを示す。
TIRタスクの実行時に誤った動作パターンをキャリブレーションし、効果的な軌道を探索する方法は、未解決の問題のままである。
本稿では,自己進化型データフライホイールと行動校正トレーニングという2つの相乗的視点を通して,エージェントのツール使用行動を調整するためのトレーニングフレームワークET-Agentを提案する。
具体的には, LLMを微調整して探査能力を向上させるために, 改良されたデータを生成する自己進化型データフライホイールを提案する。
そこで我々は,2段階の行動校正訓練フレームワークを実装した。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
さらに詳細な実験では、正確性、効率性、推論精度、ツール実行精度など、複数次元にわたる \ourmodel{} の優位性を確認している。
我々のET-Agentフレームワークは、TIR分野の研究に実用的な洞察を提供する。
コードはhttps://github.com/asilverlight/ET-Agentにある。
関連論文リスト
- STeCa: Step-level Trajectory Calibration for LLM Agent Learning [9.678098205818566]
大規模言語モデル(LLM)ベースのエージェントは、環境と動的に相互作用することで複雑なタスクに取り組むことを約束している。
LLMエージェント学習のための新しいフレームワークであるStep-Level Trajectory (STeCa)を提案する。
論文 参考訳(メタデータ) (2025-02-20T05:28:44Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。