論文の概要: Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies
- arxiv url: http://arxiv.org/abs/2512.19673v1
- Date: Mon, 22 Dec 2025 18:51:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.884204
- Title: Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies
- Title(参考訳): ボトムアップポリシー最適化:あなたの言語モデルポリシーは内部ポリシーを秘密に含んでいる
- Authors: Yuqiao Tan, Minzheng Wang, Shizhu He, Huanxuan Liao, Chengfeng Zhao, Qiunan Lu, Tian Liang, Jun Zhao, Kang Liu,
- Abstract要約: 既存の強化学習アプローチは、大きな言語モデル(LLM)を単一の統一ポリシーとして扱い、内部メカニズムを見渡す。
本研究では,トランスフォーマー残流の内在的分割と隠れ状態の構成と非埋め込み行列との等価性を利用して,言語モデルポリシーを分解する。
この分解によって、個々のレイヤからのコントリビューションに対応する内部レイヤポリシと、自己注意とフィードフォワードネットワークと整合する内部モジュールポリシが明らかになった。
- 参考スコア(独自算出の注目度): 30.35690865689118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing reinforcement learning (RL) approaches treat large language models (LLMs) as a single unified policy, overlooking their internal mechanisms. Understanding how policy evolves across layers and modules is therefore crucial for enabling more targeted optimization and raveling out complex reasoning mechanisms. In this paper, we decompose the language model policy by leveraging the intrinsic split of the Transformer residual stream and the equivalence between the composition of hidden states with the unembedding matrix and the resulting samplable policy. This decomposition reveals Internal Layer Policies, corresponding to contributions from individual layers, and Internal Modular Policies, which align with the self-attention and feed-forward network (FFN) components within each layer. By analyzing the entropy of internal policy, we find that: (a) Early layers keep high entropy for exploration, top layers converge to near-zero entropy for refinement, with convergence patterns varying across model series. (b) LLama's prediction space rapidly converges in the final layer, whereas Qwen-series models, especially Qwen3, exhibit a more human-like, progressively structured reasoning pattern. Motivated by these findings, we propose Bottom-up Policy Optimization (BuPO), a novel RL paradigm that directly optimizes the internal layer policy during early training. By aligning training objective at lower layer, BuPO reconstructs foundational reasoning capabilities and achieves superior performance. Extensive experiments on complex reasoning benchmarks demonstrates the effectiveness of our method. Our code is available at https://github.com/Trae1ounG/BuPO.
- Abstract(参考訳): 既存の強化学習(RL)アプローチは、大きな言語モデル(LLM)を単一の統一ポリシーとして扱う。
したがって、レイヤーやモジュール間でポリシーがどのように進化するかを理解することは、よりターゲットを絞った最適化と複雑な推論メカニズムの解明に不可欠である。
本稿では,トランスフォーマー残差ストリームの内在的分割と,非埋め込み行列による隠れ状態の構成と,結果として生じるサンプリング可能なポリシーとの等価性を利用して,言語モデルポリシーを分解する。
この分解によって、個々のレイヤからのコントリビューションに対応する内部レイヤポリシと、各レイヤ内の自己アテンションおよびフィードフォワードネットワーク(FFN)コンポーネントと整合する内部モジュールポリシが明らかになった。
内部政策のエントロピーを分析することで、次のようなことが分かる。
(a)初期の層は探索のために高いエントロピーを保ち、上位層は改良のためにほぼゼロに近いエントロピーに収束し、モデル系列間で収束パターンが変化する。
b) LLamaの予測空間は最終層に急速に収束する一方、Qwenシリーズモデル、特にQwen3は、より人間らしく、徐々に構造化された推論パターンを示す。
そこで本研究では,早期学習時に内部層ポリシーを直接最適化する新しいRLパラダイムであるボトムアップポリシー最適化(BuPO)を提案する。
下位層でのトレーニング目標の整合によって、BuPOは基礎的推論能力を再構築し、優れたパフォーマンスを実現する。
複雑な推論ベンチマークの大規模な実験により,本手法の有効性が示された。
私たちのコードはhttps://github.com/Trae1ounG/BuPO.comから入手可能です。
関連論文リスト
- Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs [49.66344956133349]
推論能力は、大規模な(ビジョン)言語モデルのための推論時間性能と強化学習(RL)トレーニングの両方を形作る。
本稿では,戦略的文脈化のための潜在変数をモデルに付与する新しい潜在変調フレームワークであるReasoning Paletteを提案する。
論文 参考訳(メタデータ) (2025-12-19T03:32:53Z) - Multi-Objective Reward and Preference Optimization: Theory and Algorithms [3.316593788543852]
この論文は、制御、嗜好学習、大規模言語モデルのアライメントを越えて制約付き強化学習(RL)を進める理論的枠組みとアルゴリズムを開発する。
ACPO, e-COP, warmPref-PS, PSPL, MOPOは, 平均コスト, エピソード, 嗜好駆動のパラダイムでRLを推し進める。
集合的に、論文はRLを平均的コスト、エピソード、および嗜好駆動のパラダイムで統一し、理論的な進歩と、安全で整合した意思決定のための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-12-11T12:51:21Z) - Hierarchical Alignment: Surgical Fine-Tuning via Functional Layer Specialization in Large Language Models [4.935224714809964]
階層的アライメント(Hierarchical Alignment)は、モデルレイヤの異なる機能ブロックにターゲットDPOを適用する新しい手法である。
具体的には、局所的な層(ローカル・アライン)の整列は文法的な流感を高める。
グローバル層(Global-Align)の整合性は、仮説として事実整合性を改善するが、論理的コヒーレンスを強化するための最も効果的な戦略であることを証明している。
論文 参考訳(メタデータ) (2025-10-14T00:58:34Z) - Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate [1.0152838128195467]
大規模言語モデル(LLM)をスケールするための一般的なパラダイムは、モノリシックなエンドツーエンドのトレーニングである。
本稿では,トランスフォーマーにおける創発的意味論の原理によって実現された,代替的,建設的なスケーリングパラダイムについて考察する。
私たちはこれを、初期段階の厳密な層凍結とモデルスタック全体の効率的で総合的な微調整を組み合わせた、階層的に構築的な手法で運用します。
論文 参考訳(メタデータ) (2025-07-08T20:01:15Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。