論文の概要: E3-TIR: Enhanced Experience Exploitation for Tool-Integrated Reasoning
- arxiv url: http://arxiv.org/abs/2604.09455v1
- Date: Fri, 10 Apr 2026 16:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.954354
- Title: E3-TIR: Enhanced Experience Exploitation for Tool-Integrated Reasoning
- Title(参考訳): E3-TIR: ツール統合推論のためのエクスペリエンスエクスプロイテーションの強化
- Authors: Weiyang Guo, Zesheng Shi, Liye Zhao, Jiayuan Ma, Zeen Zhu, Junxian He, Min Zhang, Jing Li,
- Abstract要約: エージェント訓練の初期段階におけるウォームアップパラダイムであるE3-TIR(Enhanced Experience Exploitation)を提案する。
具体的には、エキスパートプレフィックス、エキスパートガイド、セルフ探索という3つのエクスペリエンスタイプの動的統合としてトレーニングを定式化します。
本手法はモデルの知識境界を動的に適用し,探索の多様性と学習効率のバランスをとる。
- 参考スコア(独自算出の注目度): 26.716382486149453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have demonstrated significant potential in Tool-Integrated Reasoning (TIR), existing training paradigms face significant limitations: Zero-RL suffers from inefficient exploration and mode degradation due to a lack of prior guidance, while SFT-then-RL is limited by high data costs and capability plateaus caused by low-entropy collapse. To address these challenges, we propose E3-TIR (Enhanced Experience Exploitation), a warm-up paradigm for the early stages of agent training. Specifically, we formulate training as the dynamic integration of three experience types: Expert Prefixes, Expert Guided, and Self-Exploration. By executing diverse branching exploration around expert "anchors" and employing a mix policy optimization mechanism, we effectively mitigate distribution shifts and resolve optimization conflicts arising from shared prefixes. Our method dynamically adapts the model's knowledge boundaries, effectively balancing exploration diversity with training efficiency.Experimental results demonstrate that E3-TIR achieves a 6 performance improvement over traditional paradigms on tool-use tasks, while requiring less than 10 of the synthetic data. Furthermore, in terms of ROI, a comprehensive metric integrating performance, data cost, and training efficiency we achieve a 1.46x gain compared to baselines. Code is available at https://github.com/yuki-younai/E3-TIR.
- Abstract(参考訳): 大型言語モデル(LLM)はツール統合推論(TIR)において大きな可能性を示しているが、既存の訓練パラダイムには重大な制限がある: Zero-RLは事前ガイダンスの欠如による非効率な探索とモード劣化に悩まされており、SFT-then-RLは低エントロピー崩壊に起因する高コストと能力プレートによって制限されている。
これらの課題に対処するため,エージェント訓練の初期段階におけるウォームアップパラダイムであるE3-TIR(Enhanced Experience Exploitation)を提案する。
具体的には、エキスパートプレフィックス、エキスパートガイド、セルフ探索という3つのエクスペリエンスタイプの動的統合としてトレーニングを定式化します。
専門家の「アンカー」にまつわる多様な分岐探索を行い、ミックスポリシー最適化機構を用いることで、分配シフトを効果的に軽減し、共有プレフィックスから生じる最適化競合を解決する。
実験の結果,E3-TIRは10未満の合成データを必要としながら,従来のツール利用課題よりも6つの性能向上を実現していることがわかった。
さらにROIでは、パフォーマンス、データコスト、トレーニング効率を総合的に統合することで、ベースラインに比べて1.46倍の利益を達成しています。
コードはhttps://github.com/yuki-younai/E3-TIRで入手できる。
関連論文リスト
- AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - ASTER: Agentic Scaling with Tool-integrated Extended Reasoning [27.877412657068806]
強化学習(Reinforcement Learning, RL)は,大規模言語モデル(LLM)における長軸推論の主流パラダイムとして登場した。
ASTER(Agentic Scaling with Tool-integrated Extended Reasoning)は,コールドスタート戦略を通じて,この崩壊を回避するフレームワークである。
ほんの4Kのインタラクション・ディエンス・トラジェクトリの,小規模な専門家によるコールドスタートセットが,ダウンストリームのパフォーマンスを最強に向上させることがわかった。
論文 参考訳(メタデータ) (2026-02-01T12:46:02Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization [46.40666108181214]
Mixture-of-Experts (MoE)モデルは、大規模なディープラーニングの基盤として現れている。
MoEモデルは、従来の量子化技術に挑戦する固有の複雑さを持つ。
我々は,MoE アーキテクチャに適した新しい PTQ フレームワークである EAQuant を提案する。
論文 参考訳(メタデータ) (2025-06-16T10:18:50Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
MenTORは3つのシミュレーションベンチマークで最先端の手法を上回り、挑戦的な3つの現実世界のロボット操作タスクで平均83%の成功率を達成した。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。