論文の概要: EAPO: Entropy-Driven Adaptive Positive-Negative Sample Weighting for Policy Optimization in Open-Ended QA
- arxiv url: http://arxiv.org/abs/2605.27846v1
- Date: Wed, 27 May 2026 02:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.683122
- Title: EAPO: Entropy-Driven Adaptive Positive-Negative Sample Weighting for Policy Optimization in Open-Ended QA
- Title(参考訳): EAPO: オープンエンディングQAにおけるポリシ最適化のためのエントロピー駆動適応型正負負のサンプル重み付け
- Authors: Yunsheng Zeng, Gen Li, Yuwei Miao, Xiandong Li, Yujin Wang, Siyu Chen, Luning Wang, Yunhao Qiao, Junfeng Wang, Jianwei Lv, Bo Yuan,
- Abstract要約: 質問応答に対する強化学習における正および負のサンプルの役割について検討する。
本稿では,正のサンプルと負のサンプルを区別するための報酬平均に基づく戦略を提案する。
EAPOは、応答の多様性と安定性の両方において、一定重量のベースラインを一貫して、実質的に上回っていることを示す。
- 参考スコア(独自算出の注目度): 22.145161191946197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models are typically trained via reinforcement learning from verifiable rewards (RLVR). However, existing approaches adopt fixed weights for positive and negative samples, and the conclusions hardly generalize to open-ended question answering (QA). In this paper, we systematically investigate the roles of positive and negative samples in reinforcement learning for open-ended QA. We propose a reward-mean-based strategy for distinguishing positive from negative samples, and observe that negative samples predominantly govern response diversity and the performance upper bound, whereas positive samples primarily determine response quality and convergence stability. Building on these observations, we propose EAPO, an Entropy-driven Adaptive Policy Optimization method that adaptively computes the weighting coefficients of positive samples based on the ratio of the current policy entropy to the initial entropy. During the entropy-decreasing phase, the weight assigned to positive samples is reduced to preserve exploration, whereas during the entropy-increasing phase it is amplified to reinforce stability, thereby mitigating entropy collapse. Experiments on two publicly available open-ended medical QA datasets demonstrate that EAPO consistently and substantially outperforms fixed-weight baselines in both response diversity and stability.
- Abstract(参考訳): 大規模推論モデルは通常、検証可能な報酬(RLVR)からの強化学習を通じて訓練される。
しかし、既存のアプローチでは、正と負のサンプルに対して固定重みが採用されており、結論はオープンエンドの質問応答 (QA) にはほとんど一般化しない。
本稿では,オープンエンドQAにおける強化学習における正および負のサンプルの役割を体系的に検討する。
負のサンプルと負のサンプルを区別する報奨平均に基づく戦略を提案し、負のサンプルが応答の多様性と性能上界を主に支配するのに対して、正のサンプルは応答の質と収束の安定性を主に決定するのに対し、負のサンプルは応答の多様性と性能上界を支配していることを観察する。
これらの観測結果に基づいて,現在のポリシエントロピーと初期エントロピーの比率に基づいて,正のサンプルの重み付け係数を適応的に計算する,エントロピー駆動の適応的ポリシー最適化手法EAPOを提案する。
エントロピー上昇期には, 正試料に割り当てられた重量を減らして探査を継続する一方, エントロピー上昇期には安定性を増強し, エントロピー崩壊を緩和する。
公開された2つの医療用QAデータセットの実験では、EAPOは応答の多様性と安定性の両方において、一貫して、実質的に、固定ウェイトベースラインを上回っている。
関連論文リスト
- Entropy Polarity in Reinforcement Fine-Tuning: Direction, Asymmetry, and Control [77.8471519867791]
実験的に、エントロピー極性はエントロピーの変化を確実に予測することを示した。
本稿では、両極性分岐を保護し、有利な再重み付けによるエントロピー制御を実装するPAPO(Polarity-Aware Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-05-12T08:47:05Z) - Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards [57.11130904745293]
試料の偏光がRLVRトレーニングの力学と挙動に与える影響について検討する。
正のサンプルは既存の正しい推論パターンを鋭くし、負のサンプルは新たな推論経路の探索を奨励する。
政策最適化のための適応的・非対称なトークンレベルのアドバンテージ整形法を提案する。
論文 参考訳(メタデータ) (2025-12-25T11:15:46Z) - ESPO: Entropy Importance Sampling Policy Optimization [7.2000276975120014]
エントロピー重要度サンプリングポリシー最適化は、きめ細かい制御とトレーニングの安定性を調整します。
ESPOは予測エントロピーに基づいて配列をグループに分解する。
数学的推論ベンチマークの実験は、ESPOが収束と最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-11-29T14:09:38Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Doubly-Robust Estimation of Counterfactual Policy Mean Embeddings [23.3862001690226]
反ファクトポリシーの下での成果の分配を推定することは、推薦、広告、医療といった領域における意思決定にとって重要である。
再生カーネル空間(RKHS)における反事実分布全体を表す新しいフレームワーク-Counterfactual Policy Mean Embedding(CPME)を提案する。
プラグイン推定器と2倍頑健な推定器の両方を導入し、後者は結果埋め込みモデルと確率モデルの両方においてバイアスを補正することで収束率の向上を享受する。
論文 参考訳(メタデータ) (2025-06-03T12:16:46Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Diversity Actor-Critic: Sample-Aware Entropy Regularization for
Sample-Efficient Exploration [22.539300644593936]
提案したサンプル認識エントロピー正規化は、リプレイバッファから取得可能なサンプル分布をエクスプロイトすることにより、ポリシーアクション分布の重み付け和のエントロピーを最大化し、リプレイバッファからのサンプルアクション分布を最大化し、サンプリング効率の高い探索を行う。
提案したサンプル認識エントロピー正則化を用いて,目的関数にポリシー反復を適用することで,多様性アクタクリティカル (DAC) という実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-06-02T06:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。