論文の概要: Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning
- arxiv url: http://arxiv.org/abs/2601.10306v1
- Date: Thu, 15 Jan 2026 11:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.116823
- Title: Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning
- Title(参考訳): 長期推論のためのリワード共進化を用いたエビデンス強化政策最適化
- Authors: Xin Guan, Zijian Li, Shen Huang, Pengjun Xie, Jingren Zhou, Jiuxin Cao,
- Abstract要約: 本稿では,強化学習を長期シナリオに適用するためのEAPO(Evidence-Augmented Policy Optimization)を提案する。
最初にEvidence-Augmented Reasoningパラダイムを確立し、Tree-Structued Evidence Smplingを介して検証する。
次に、報酬モデルがグループ相対エビデンス・リワードを計算する特殊なRLアルゴリズムを導入する。
トレーニングを通して正確な監視を維持するため、適応的リワード・ポリティ共進化機構をさらに取り入れる。
- 参考スコア(独自算出の注目度): 52.144281362465996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Reinforcement Learning (RL) has advanced LLM reasoning, applying it to long-context scenarios is hindered by sparsity of outcome rewards. This limitation fails to penalize ungrounded "lucky guesses," leaving the critical process of needle-in-a-haystack evidence retrieval largely unsupervised. To address this, we propose EAPO (Evidence-Augmented Policy Optimization). We first establish the Evidence-Augmented Reasoning paradigm, validating via Tree-Structured Evidence Sampling that precise evidence extraction is the decisive bottleneck for long-context reasoning. Guided by this insight, EAPO introduces a specialized RL algorithm where a reward model computes a Group-Relative Evidence Reward, providing dense process supervision to explicitly improve evidence quality. To sustain accurate supervision throughout training, we further incorporate an Adaptive Reward-Policy Co-Evolution mechanism. This mechanism iteratively refines the reward model using outcome-consistent rollouts, sharpening its discriminative capability to ensure precise process guidance. Comprehensive evaluations across eight benchmarks demonstrate that EAPO significantly enhances long-context reasoning performance compared to SOTA baselines.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)はLLM推論を先進的に進めているが, 長期コンテキストのシナリオに適用することは, 結果報酬の分散によって妨げられる。
この制限は、未解決の「幸運な推測」をペナルティ化するのに失敗し、ニードル・イン・ア・ヘイスタックの証拠検索の重要な過程は、ほとんど監督されていないままである。
そこで我々はEAPO(Evidence-Augmented Policy Optimization)を提案する。
最初にEvidence-Augmented Reasoningパラダイムを確立し、Tree-Structued Evidence Samplingを通じて正確なエビデンス抽出が長文推論における決定的なボトルネックであることを検証した。
この知見に導かれて、EAPOは、報酬モデルがグループ相対エビデンス・リワードを計算する特殊なRLアルゴリズムを導入し、より密集したプロセスの監督を提供し、証拠の品質を明示的に改善する。
トレーニングを通して正確な監視を維持するため、適応的リワード・ポリティ共進化機構をさらに取り入れる。
このメカニズムは、結果一貫性のあるロールアウトを使用して報酬モデルを反復的に洗練し、その識別能力を高めて、正確なプロセスガイダンスを保証する。
8つのベンチマークの総合的な評価は、EAPOがSOTAベースラインと比較して長期コンテキスト推論性能を著しく向上することを示している。
関連論文リスト
- Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards [60.0970117192627]
強化学習(Reinforcement Learning, RL)は, LLMに基づくディープサーチエージェントの強化に重要な手法である。
既存のアプローチは主にバイナリ結果の報酬に依存しており、エージェントの推論プロセスの包括性と事実性を捉えていない。
ディープサーチエージェントのための微粒化報酬フレームワークである textbfCitation-aware RL Rewards (CaRR) を提案する。
論文 参考訳(メタデータ) (2026-01-09T18:57:53Z) - Rectifying LLM Thought from Lens of Optimization [48.98086817378953]
ロングチェーン・オブ・シンクレット (Long chain-of- Thought, CoT) は、徹底的な調査と検討を可能にする。
進歩にもかかわらず、長いCoT LLMは、しばしば最適な推論行動を示す。
ポストトレーニング中のLCM推論を洗練するための新しい手法であるReProを紹介する。
論文 参考訳(メタデータ) (2025-12-01T17:41:08Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - PACR: Progressively Ascending Confidence Reward for LLM Reasoning [55.06373646059141]
我々は、PACR(Progressive Ascending Confidence Reward)を提案する。
PACRは、正解に対するモデルの進化的信念から直接計算された、密集したモデル固有の報酬である。
以上の結果から,RLVRトレーニングはより効果的で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2025-10-25T11:25:35Z) - Pinpointing crucial steps: Attribution-based Credit Assignment for Verifiable Reinforcement Learning [5.880405013005892]
ACPOは、困難なカリキュラムを組み込んだ段階的なフレームワークである。
ACPOは、トラジェクティブセマンティックセグメンテーションと属性ベースの表現を用いて探索を改善する。
これは、各推論ステップの階層的寄与を正確に定量化する分解された報酬システムによる搾取を強化する。
論文 参考訳(メタデータ) (2025-10-10T01:22:55Z) - Hybrid Reward Normalization for Process-supervised Non-verifiable Agentic Tasks [12.31210445905605]
ステップレベルの評価と結果の検証を統一するRLアプローチである原則プロセス・リワード(PPR)を導入する。
PPRは幅広いベンチマークで最先端のパフォーマンスを実現し、その顕著な堅牢性と一般化を実証している。
論文 参考訳(メタデータ) (2025-09-29T23:44:55Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - PSPO*: An Effective Process-supervised Policy Optimization for Reasoning Alignment [18.92519796675559]
我々は,報酬得点を決定するための推論ステップの数を考慮したPSPO-WRSを開発し,非線形報酬形成に最適化されたワイブル分布を利用する。
6つの数学的推論データセットの実験結果は、PSPO-WRSが現在の主流モデルより一貫して優れていることを示している。
論文 参考訳(メタデータ) (2024-11-18T16:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。