論文の概要: Reinforcement Learning Fine-Tuning Enhances Activation Intensity and Diversity in the Internal Circuitry of LLMs
- arxiv url: http://arxiv.org/abs/2509.21044v1
- Date: Thu, 25 Sep 2025 11:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.879475
- Title: Reinforcement Learning Fine-Tuning Enhances Activation Intensity and Diversity in the Internal Circuitry of LLMs
- Title(参考訳): LLMの内部回路における活性化強度と多様性の強化学習
- Authors: Honglin Zhang, Qianyue Hao, Fengli Xu, Yong Li,
- Abstract要約: 大規模言語モデル(LLM)は、大規模な事前学習を通じて広範囲の事前知識を取得し、教師付き微調整(SFT)や強化学習(RL)ベースの後訓練によってさらに強化することができる。
RL微細調整は、SFT単独で達成した以上のLLMの能力を向上することを示す証拠が増えている。
しかし、RL微調整が固有の特性の異なる様々なLLMの能力を高めるメカニズムは未解明のままである。
- 参考スコア(独自算出の注目度): 13.036236161537147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) acquire extensive prior knowledge through large-scale pretraining and can be further enhanced via supervised fine-tuning (SFT) or reinforcement learning (RL)-based post-training. A growing body of evidence has shown that RL fine-tuning improves the capability of LLMs beyond what SFT alone achieves. However, the underlying mechanisms why RL fine-tuning is able to enhance the capability of various LLMs with distinct intrinsic characteristics remain underexplored. In this study, we draw inspiration from prior work on edge attribution patching (EAP) to investigate the internal differences of LLMs before and after RL fine-tuning. Our analysis across multiple model families shows two robust effects of online RL post-training: (i) an overall increase in activation intensity, indicating that more internal pathways are engaged and their signals become stronger, and (ii) greater diversity in activation patterns, reflected by higher entropy and less concentrated edge distributions. These changes suggest that RL reshapes information flow to be both more redundant and more flexible, which may explain its advantage in generalization. Notably, models fine-tuned with Direct Preference Optimization (DPO) deviate from these trends, exhibiting substantially weaker or inconsistent internal changes compared to PPO- and GRPO-based training. Together, our findings provide a unified view of how RL fine-tuning systematically alters the internal circuitry of LLMs and highlight the methodological distinctions between online RL and preference-based approaches. Our code is open source at https://anonymous.4open.science/r/llm_rl_probing_analysis-F673.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大規模な事前学習を通じて広範囲の事前知識を取得し、教師付き微調整(SFT)や強化学習(RL)ベースの後訓練によってさらに強化することができる。
RL微細調整は、SFT単独で達成した以上のLLMの能力を向上することを示す証拠が増えている。
しかし、RL微調整が固有の特性の異なる様々なLLMの能力を高めるメカニズムは未解明のままである。
本研究では, エッジ属性パッチ(EAP)に関する先行研究からインスピレーションを得て, RL微調整前後におけるLDMの内部的差異について検討した。
複数のモデルファミリーを対象とした分析では、オンラインRLポストトレーニングの2つのロバストな効果が示されている。
(i)活性化強度の全体的な増加は、より多くの内部経路が関与し、その信号がより強くなることを示し、
(II) 活性化パターンの多様性は, 高エントロピーと低濃度エッジ分布によって反映される。
これらの変化は、RLが情報フローをより冗長かつ柔軟にし、一般化の優位性を説明することを示唆している。
特に、直接選好最適化(DPO)で微調整されたモデルはこれらの傾向から逸脱し、PPOやGRPOベースのトレーニングと比べてかなり弱いか矛盾した内部変化を示す。
この結果から,LL の微調整が LLM の内部回路を系統的にどう変更するかを統一的に把握し,オンライン RL と嗜好に基づくアプローチの方法論的区別を強調した。
私たちのコードはhttps://anonymous.4open.science/r/llm_rl_probing_analysis-F673でオープンソースです。
関連論文リスト
- Learning Dynamics in RL Post-Training for Language Models [2.538209532048867]
我々は、教師あり学習において研究されてきたが、RLでは未探索である視点から、RLポストトレーニングの学習ダイナミクスを分析した。
特徴表現の変動性に制限があることから,RL更新がモデル信頼性を体系的に向上させる可能性が示唆された。
これらの知見に感化されて、簡単な2段階学習戦略である分類器第一強化学習(CF-RL)を提案する。
論文 参考訳(メタデータ) (2026-01-08T07:32:15Z) - On Predictability of Reinforcement Learning Dynamics for Large Language Models [20.320268628019047]
本研究は,大言語モデルにおけるRLによるパラメータ更新の2つの基本特性を同定する。
短期早期訓練ウィンドウを用いて最終パラメータ更新を補間するプラグインアクセラレーションフレームワークであるAlphaRLを提案する。
論文 参考訳(メタデータ) (2025-10-01T06:13:50Z) - Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning [16.095629872564874]
強化学習はおそらく最も顕著な微調整法である。
進化戦略(ES)はかつて、数百万のパラメータを持つモデルでRLに匹敵する性能を示した。
ESは数十億のパラメータを効率的に探索し、既存のRLファインチューニング手法より優れている。
論文 参考訳(メタデータ) (2025-09-29T07:19:34Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs [14.78605805191225]
近年,大規模言語モデル(LLM)の強化学習に基づくポストトレーニングが注目されている。
これらの手法の基礎となる定式化と仮定を批判的に検討する。
論文 参考訳(メタデータ) (2025-05-19T19:57:15Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。