論文の概要: KEPO: Knowledge-Enhanced Preference Optimization for Reinforcement Learning with Reasoning
- arxiv url: http://arxiv.org/abs/2602.00400v1
- Date: Fri, 30 Jan 2026 23:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.161823
- Title: KEPO: Knowledge-Enhanced Preference Optimization for Reinforcement Learning with Reasoning
- Title(参考訳): KEPO:推論による強化学習のための知識強化された選好最適化
- Authors: Fan Yang, Rui Meng, Trudi Di Qi, Ali Ezzati, Yuxin Wen,
- Abstract要約: 強化学習は、大規模言語や視覚言語モデルにおいて、明示的な推論行動を引き起こすための有望なパラダイムとして登場した。
しかしながら、推論指向のRLポストトレーニングは、低軌道レベルの報酬のため、基本的には困難である。
近年のオンライン蒸留法では,教師の集中管理によって最適化の安定化が図られている。
- 参考スコア(独自算出の注目度): 24.072603982041798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has emerged as a promising paradigm for inducing explicit reasoning behaviors in large language and vision-language models. However, reasoning-oriented RL post-training remains fundamentally challenging due to sparse trajectory-level rewards, leading to ambiguous credit assignment and severe exploration failures that can trap the policy in a ``learning cliff.'' Recent on-policy distillation methods introduce dense teacher supervision to stabilize optimization, but apply it uniformly across all generated trajectories. We argue that such uniform distillation is ill-suited for reasoning-intensive tasks, as low-quality on-policy trajectories often originate from early logical errors, and distillation under flawed contexts injects noisy and misaligned gradients. To address these challenges, we propose Knowledge-Enhanced Preference Optimization (KEPO), a unified post-training framework that integrates: (i) a quality-gated on-policy distillation objective that selectively applies dense teacher guidance only to high-quality trajectories, and (ii) a knowledge-enhanced exploration strategy that leverages hints learned from a teacher model to rejectively sample reward-positive on-policy trajectories for RL, thereby mitigating exploration collapse. Evaluated on a challenging medical visual question answering benchmark under single-source generalization, KEPO demonstrates improved training stability, more coherent reasoning behaviors, and superior out-of-distribution performance over reinforcement learning and on-policy distillation baselines.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語および視覚言語モデルにおいて、明示的な推論行動を引き起こすための有望なパラダイムとして登場した。
しかし、推論指向のRLポストトレーニングは、粗末な軌道レベルの報酬のため、基本的には困難であり、不明瞭な信用割り当てと「学習の崖」で政策をトラップできる厳しい調査失敗につながっている。
「近年のオンライン蒸留法では, 教師の集中管理による最適化が図られているが, 発生した全ての軌跡に一様に適用されている。
このような一様蒸留は、低品質のオンライン軌道は初期の論理的誤りから生じることが多く、欠陥のある状況下での蒸留はノイズや不整合勾配を注入するので、推論集約的な作業に不適であると主張する。
これらの課題に対処するため、我々は、統合されたポストトレーニングフレームワークであるKEPO(Knowledge-Enhanced Preference Optimization)を提案する。
一 質の高い軌跡のみに高密度教師指導を選択的に施した質の高いオンライン蒸留目標
二 教師モデルから学んだヒントを利用して、RLに対する報酬陽性のオンライン軌道を拒否的にサンプリングし、探索崩壊を緩和する知識強化探索戦略。
KEPOは、単一ソースの一般化の下での挑戦的な医用視覚質問応答ベンチマークに基づいて、トレーニング安定性の向上、一貫性のある推論行動の向上、強化学習やオンライン蒸留ベースラインよりもアウト・オブ・ディストリビューション性能の向上を実証した。
関連論文リスト
- IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck [20.113524065146674]
イテレーティブ・インフォメーション・ボトルネック(IIB-LPO)は、トークンの統計的摂動から推論軌道のトポロジカル分岐へと探索を移す新しいアプローチである。
IIB-LPOは最先端のパフォーマンスを達成し、従来の手法を最大5.3%の精度と7.4%の多様性で上回っている。
論文 参考訳(メタデータ) (2026-01-09T15:46:40Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Pinpointing crucial steps: Attribution-based Credit Assignment for Verifiable Reinforcement Learning [5.880405013005892]
ACPOは、困難なカリキュラムを組み込んだ段階的なフレームワークである。
ACPOは、トラジェクティブセマンティックセグメンテーションと属性ベースの表現を用いて探索を改善する。
これは、各推論ステップの階層的寄与を正確に定量化する分解された報酬システムによる搾取を強化する。
論文 参考訳(メタデータ) (2025-10-10T01:22:55Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration [39.460202867967006]
そこで,本研究では,高密度報酬を付与し,RLに基づくパラダイムにおける探索を増幅するために,固有モチベーションギルド探索比N meThOd foR LLM推論(i-MENTOR)を提案する。
4つの公開データセットにわたる実験は、i-MENTORの有効性を示し、AIME 2024で22.23%改善した。
論文 参考訳(メタデータ) (2025-05-23T08:30:28Z) - Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。
GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。
本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文 参考訳(メタデータ) (2025-04-24T01:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。