論文の概要: AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards
- arxiv url: http://arxiv.org/abs/2512.19126v2
- Date: Tue, 23 Dec 2025 11:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 13:10:52.744453
- Title: AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards
- Title(参考訳): AWPO:Reasoning Rewardsの明示的な統合による大規模言語モデルのツール利用促進
- Authors: Zihan Lin, Xiaohan Wang, Hexiong Yang, Jiajun Chai, Jie Cao, Guojun Yin, Wei Lin, Ran He,
- Abstract要約: 我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。
実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 60.2998874976509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning (RL) shows promise in training tool-use large language models (LLMs) using verifiable outcome rewards, existing methods largely overlook the potential of explicit reasoning rewards to bolster reasoning and tool utilization. Furthermore, natively combining reasoning and outcome rewards may yield suboptimal performance or conflict with the primary optimization objective. To address this, we propose advantage-weighted policy optimization (AWPO) -- a principled RL framework that effectively integrates explicit reasoning rewards to enhance tool-use capability. AWPO incorporates variance-aware gating and difficulty-aware weighting to adaptively modulate advantages from reasoning signals based on group-relative statistics, alongside a tailored clipping mechanism for stable optimization. Extensive experiments demonstrate that AWPO achieves state-of-the-art performance across standard tool-use benchmarks, significantly outperforming strong baselines and leading closed-source models in challenging multi-turn scenarios. Notably, with exceptional parameter efficiency, our 4B model surpasses Grok-4 by 16.0 percent in multi-turn accuracy while preserving generalization capability on the out-of-distribution MMLU-Pro benchmark.
- Abstract(参考訳): 強化学習(RL)は、検証可能な結果報酬を用いたツール利用大型言語モデル(LLM)のトレーニングにおいて有望であるが、既存の手法は、推論とツール利用を促進するための明確な推論報酬の可能性をほとんど見落としている。
さらに、推論と結果の報酬をネイティブに組み合わせることで、最適以下の性能が得られるかもしれないし、主最適化目標と矛盾することもある。
これを解決するために,ツール利用能力を高めるために,明示的な推論報酬を効果的に統合する原則的RLフレームワークであるアドバンテージ・ヘビード・ポリシー・オプティマイズ(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、グループ相対統計に基づく推論信号から利点を適応的に変調し、安定した最適化のための調整されたクリッピング機構を組み込む。
大規模な実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成し、強力なベースラインを著しく上回り、マルチターンシナリオに挑戦するクローズドソースモデルをリードする。
例外的パラメータ効率では、我々の4Bモデルは、分布外MMLU-Proベンチマークの一般化能力を保ちながら、マルチターン精度でGrok-4を16.0パーセント上回る。
関連論文リスト
- ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Stable Preference Optimization for LLMs: A Bilevel Approach Beyond Direct Preference Optimization [2.384797824772941]
確率進化の観点からDPOのダイナミクスを包括的に分析する。
本稿では,教師付き微調整とDPO目標,すなわち安定な選好最適化とを密に統合する理論的基礎を持つ二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-10T12:57:39Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。