論文の概要: OISD: On-Policy Internal Self-Distillation of Language Models
- arxiv url: http://arxiv.org/abs/2605.29089v1
- Date: Wed, 27 May 2026 20:43:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.453794
- Title: OISD: On-Policy Internal Self-Distillation of Language Models
- Title(参考訳): OISD: 言語モデルの内部自己蒸留
- Authors: Xinyu Liu, Darryl Cherian Jacob, Yang Zhou, Jindong Wang, Pan He,
- Abstract要約: 近年の強化学習手法は, 粗末な結果レベルの報酬を用いて, 最終出力政策を最適化している。
我々は,最終層から中間表現へ政治上の予測信号を転送することで推論を改善するOISDフレームワークを提案する。
OISDの有効性は,強い推理RLベースラインよりも大きく,一貫した改善がみられた。
- 参考スコア(独自算出の注目度): 20.760265566511183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent reinforcement learning (RL) post-training approaches primarily optimize the final output policy using sparse outcome-level rewards, while largely overlooking predictive signals encoded in intermediate representations. In this paper, we introduce a new paradigm called on-policy internal self-distillation and propose the OISD framework, which improves reasoning by transferring on-policy predictive signals from the final layer to intermediate representations. During rollout and Group Relative Policy Optimization (GRPO) optimization, the final layer acts as both the policy and a detached internal teacher for selected intermediate layers, which are guided to align with it through two complementary mechanisms: logit alignment, which transfers high-level reasoning behaviors (how to think), and attention alignment, which enforces consistent attention patterns (where to look) from the final layer to the selected intermediate layer, both without requiring external privileged information. Our OISD, together with GRPO, employs signed advantage-weighted Jensen--Shannon alignment to distill informative intermediate representations while preserving policy consistency under a unified acting policy. Experimental results demonstrate the effectiveness of OISD, with substantial and consistent improvements over strong reasoning RL baselines across four mathematical reasoning tasks. The code will be released at https://github.com/THE-MALT-LAB/OISD
- Abstract(参考訳): 最近の強化学習(RL)ポストトレーニングアプローチは、主に、中間表現に符号化された予測信号を見落としながら、スパース結果レベルの報酬を使用して最終的な出力ポリシーを最適化する。
本稿では, 内部自己蒸留という新たなパラダイムを導入し, 最終層から中間表現へのオンライン予測信号の転送による推論を改善するOISDフレームワークを提案する。
ロールアウトとグループ相対ポリシー最適化(GRPO)最適化の間、最終レイヤは、選択された中間層に対してポリシーと分離された内部教師の両方として機能し、それは2つの相補的なメカニズムによってそれに対応するようにガイドされる。
我々のOISDはGRPOとともに、統一的行動政策の下で政策整合性を維持しつつ、情報的中間表現を蒸留するために、強みに富んだジェンセン=シャノンアライメントを用いています。
OISDの有効性は,4つの数学的推論タスクにおいて,強い推論RLベースラインよりも大幅に改善され,一貫した改善がなされた。
コードはhttps://github.com/the-MALT-LAB/OISDで公開される。
関連論文リスト
- Segment-Aligned Policy Optimization for Multi-Modal Reasoning [55.29606572822562]
本稿では、トークンや全シーケンスではなく、一貫性のある推論ステップをポリシー更新の基本単位として扱う新しい強化学習パラダイムを提案する。
代表的な推論ベンチマークの実験は、SAPOがトークンレベルおよびシーケンスレベルポリシー最適化手法を一貫して上回っていることを示している。
我々の研究は、強化学習の更新を推論の構造と整合させることの重要性を強調し、複雑な推論タスクにおけるより効率的でセマンティックに根ざした政策最適化の道を開く。
論文 参考訳(メタデータ) (2026-05-02T08:47:45Z) - Soft Sequence Policy Optimization [0.0]
我々は,非政治強化学習の目的として,ソフトシーケンスポリシー最適化(SSPO)を導入する。
SSPOは、トークンレベルの確率比を超えるソフトゲーティング関数をシーケンスレベルの重要重みに組み込む。
数学推論タスクにおいて,SSPOはトレーニングの安定性と性能を向上させることを示す。
論文 参考訳(メタデータ) (2026-02-22T20:21:00Z) - f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment [15.396104072574104]
政治強化学習のクラスであるf群相対政策最適化(f-GRPO)とf-Hybrid Alignment Loss(f-HAL)を提案する。
我々は、これらの目的のクラスがアライメント後の平均報酬を改善することを理論的に保証する。
論文 参考訳(メタデータ) (2026-02-05T18:01:52Z) - Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies [30.35690865689118]
既存の強化学習アプローチは、大きな言語モデル(LLM)を単一の統一ポリシーとして扱い、内部メカニズムを見渡す。
本研究では,トランスフォーマー残流の内在的分割と隠れ状態の構成と非埋め込み行列との等価性を利用して,言語モデルポリシーを分解する。
この分解によって、個々のレイヤからのコントリビューションに対応する内部レイヤポリシと、自己注意とフィードフォワードネットワークと整合する内部モジュールポリシが明らかになった。
論文 参考訳(メタデータ) (2025-12-22T18:51:48Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Imitate Optimal Policy: Prevail and Induce Action Collapse in Policy Gradient [61.440209025381016]
ポリシー強化学習は、ディープニューラルネットワーク(DNN)を使用して、アクション選択層における可能性を計算するために使用される特徴表現の共有バックボーンを学習する。
特定の制約下では、我々はAction Collapse (AC)と呼ばれる神経崩壊に似た構造が出現する。
本稿では,動作選択層として合成ETFを付加した行動崩壊ポリシー勾配(ACPG)法を提案する。
論文 参考訳(メタデータ) (2025-09-02T18:33:11Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。