論文の概要: Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.11711v1
- Date: Fri, 16 May 2025 21:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.798929
- Title: Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
- Title(参考訳): 大規模言語モデルを用いた強化学習小型サブネット
- Authors: Sagnik Mukherjee, Lifan Yuan, Dilek Hakkani-Tur, Hao Peng,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、大規模な言語モデルにおいて、タスクのパフォーマンスと人間の価値との整合性を大幅に向上させる。
驚くべきことに、このような大きな利益は、パラメータの5%から30%の小さなサブネットワークだけを更新することによるものです。
本稿では,この現象をRLにより引き起こされるパラメータ更新時空間性と呼ぶ。
- 参考スコア(独自算出の注目度): 27.55599230411277
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement learning (RL) yields substantial improvements in large language models (LLMs) downstream task performance and alignment with human values. Surprisingly, such large gains result from updating only a small subnetwork comprising just 5 percent to 30 percent of the parameters, with the rest effectively unchanged. We refer to this phenomenon as parameter update sparsity induced by RL. It is observed across all 7 widely used RL algorithms (e.g., PPO, GRPO, DPO) and all 10 LLMs from different families in our experiments. This sparsity is intrinsic and occurs without any explicit sparsity promoting regularizations or architectural constraints. Finetuning the subnetwork alone recovers the test accuracy, and, remarkably, produces a model nearly identical to the one obtained via full finetuning. The subnetworks from different random seeds, training data, and even RL algorithms show substantially greater overlap than expected by chance. Our analysis suggests that this sparsity is not due to updating only a subset of layers, instead, nearly all parameter matrices receive similarly sparse updates. Moreover, the updates to almost all parameter matrices are nearly full-rank, suggesting RL updates a small subset of parameters that nevertheless span almost the full subspaces that the parameter matrices can represent. We conjecture that the this update sparsity can be primarily attributed to training on data that is near the policy distribution, techniques that encourage the policy to remain close to the pretrained model, such as the KL regularization and gradient clipping, have limited impact.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)の下流タスクのパフォーマンスと人間の値との整合性を大幅に向上させる。
驚くべきことに、このような大きな利益は、パラメータのわずか5%から30%の小さなサブネットワークのみを更新し、残りは事実上変更されない結果となった。
本稿では,この現象をRLにより引き起こされるパラメータ更新時空間性と呼ぶ。
実験では, 広く使用されている7つのRLアルゴリズム(例えば, PPO, GRPO, DPO)と, 異なる家系の10個のLLMで観測した。
この空間性は固有のものであり、規則化やアーキテクチャ上の制約を促進する明示的な空間性は発生しない。
サブネットの微細化だけでテスト精度が回復し、驚くほど、完全な微細化によって得られたものとほぼ同一のモデルが生成される。
異なるランダムシード、トレーニングデータ、さらにはRLアルゴリズムからのサブネットワークは、偶然に予想されるよりも大幅に重複している。
私たちの分析では、このスパース性は、レイヤのサブセットのみを更新することによるものではなく、ほぼすべてのパラメータ行列が同様にスパース更新を受け取っていることを示唆しています。
さらに、ほぼ全てのパラメータ行列に対する更新は、ほぼフルランクであり、RLはパラメータの小さなサブセットを更新する。
我々は、この更新間隔は、主にポリシー分布に近いデータに関するトレーニングによるものと推測し、KL正規化や勾配クリッピングのような事前訓練されたモデルに近づき続けるようにポリシーを奨励する技術は、限られた影響しか与えない。
関連論文リスト
- Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - RoseLoRA: Row and Column-wise Sparse Low-rank Adaptation of Pre-trained Language Model for Knowledge Editing and Fine-tuning [36.32145845869823]
事前学習された言語モデルは、様々なNLPタスクにまたがる強力な一般化性を示す。
特定のタスクのためにこれらのモデルを微調整するには、通常、リソース集約的な全てのパラメータを更新する必要がある。
我々は,textbfrowとctextbfolumn-wise spartextbfse textbflow-textbfrank textbfadaptation (RoseLoRA)を実行する新しいPEFT法を提案する。
RoseLoRAは、特定のタスクの最も重要なパラメータのみを特定し、更新し、効率を維持する
論文 参考訳(メタデータ) (2024-06-16T02:08:49Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。