論文の概要: Gradient-Based LoRA Rank Allocation Under GRPO: An Empirical Study
- arxiv url: http://arxiv.org/abs/2605.07366v1
- Date: Fri, 08 May 2026 07:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.883018
- Title: Gradient-Based LoRA Rank Allocation Under GRPO: An Empirical Study
- Title(参考訳): GRPOによるグラディエントに基づくLoRAランクアロケーションの実証的研究
- Authors: Yash Ganpat Sawant,
- Abstract要約: 強化学習におけるLoRA転送の適応的ランク割り当てについて検討する。
比例的ランクアロケーションは、均一なアロケーションに比べて4.5ポイントの精度を低下させる。
この失敗の背後にある2つのメカニズムを特定します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive rank allocation for LoRA, allocating more parameters to important layers and fewer to unimportant ones, consistently improves efficiency under supervised fine-tuning (SFT). We investigate whether this success transfers to reinforcement learning, specifically Group Relative Policy Optimization (GRPO). Using gradient-magnitude profiling on Qwen 2.5 1.5B with GSM8K, we find that it does not: proportional rank allocation degrades accuracy by 4.5 points compared to uniform allocation (70.0% vs. 74.5%), despite using identical parameter budgets. We identify two mechanisms behind this failure. First, the gradient landscape under GRPO is fundamentally flatter than under SFT, the max-to-min layer importance ratio is only 2.17x, compared to >10x reported in SFT literature. All layers carry meaningful gradient signal; none are truly idle. Second, we discover a gradient amplification effect: non-uniform allocation widens the importance spread from 2.17x to 3.00x, creating a positive feedback loop where high-rank layers absorb more gradient while low-rank layers are progressively silenced. Our results suggest that gradient importance does not predict capacity requirements under RL, and that naive transfer of SFT-era rank allocation to alignment training should be avoided.
- Abstract(参考訳): LoRAの適応的なランク割り当ては、重要な層により多くのパラメータを割り当て、重要でない層を減らし、監督された微調整(SFT)の下で効率を継続的に改善する。
本稿では,この成功が強化学習,特にグループ相対政策最適化(GRPO)に移行するかどうかを検討する。
GSM8Kを用いたQwen 2.5 1.5Bの勾配磁度プロファイリングを用いて、同じパラメータ予算を用いているにもかかわらず、比例的なランク割り当ては均一なアロケーション(70.0%対74.5%)に比べて4.5ポイントの精度を低下させる。
この失敗の背後にある2つのメカニズムを特定します。
第一に、GRPO 下の勾配は SFT よりも基本的に平坦であり、最大層比は SFT の文献で報告されている >10x よりもわずか2.17x である。
すべての層は有意義な勾配信号を持っているが、真のアイドルは存在しない。
第2に,非一様配置は重要性を2.17xから3.00xに拡大し,低ランク層が徐々に沈黙している間に高階層がより勾配を吸収する正のフィードバックループを生成する。
以上の結果から,RL下において勾配の重要度はキャパシティ要件を予測せず,アライメントトレーニングへのSFT時代のランクアロケーションの素早い移動を回避すべきであることが示唆された。
関連論文リスト
- Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures [0.0]
Low-Rank Adaptation (LoRA) は大規模モデルのパラメータ効率の高い微調整法として主流となっている。
Aletheiaは勾配誘導層選択法である。
Aletheia は評価セットに大規模な下流損傷を与えることなく,ロラ微調整を効果的に行えることを示す。
論文 参考訳(メタデータ) (2026-04-04T10:24:12Z) - IGU-LoRA: Adaptive Rank Allocation via Integrated Gradients and Uncertainty-Aware Scoring [9.250460219785188]
IGU-LoRAは、階層内統合勾配(IG)の感度を計算し、それらをランク割り当てのための階層レベルスコアに集約する適応ランクLoRAである。
IGU-LoRAは、一致したパラメータ予算でPEFTベースラインを一貫して上回り、下流の精度とロバスト性を改善している。
論文 参考訳(メタデータ) (2026-03-14T06:45:54Z) - GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning [55.03441672267886]
強化学習のための勾配整列データ選択法GradAlignを提案する。
GradAlignは,信頼できない報酬信号,分散不均衡,低ユーティリティトレーニングコーパスの3つにまたがって評価する。
論文 参考訳(メタデータ) (2026-02-25T01:54:50Z) - GradPruner: Gradient-Guided Layer Pruning Enabling Efficient Fine-Tuning and Inference for LLMs [10.61152477422108]
GradPrunerは、微調整の初期段階において、勾配によってガイドされる大規模言語モデルのレイヤをプルークすることができる。
結果、GradPrunerはパラメータを40%削減し、精度は0.99%しか低下していないことがわかった。
論文 参考訳(メタデータ) (2026-01-27T11:41:26Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Class Gradient Projection For Continual Learning [99.105266615448]
破滅的な忘れは継続的学習(CL)における最も重要な課題の1つです。
タスクではなく個々のクラスから勾配部分空間を計算するクラスグラディエント・プロジェクション(CGP)を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:45:56Z) - Enabling Differentially Private Federated Learning for Speech Recognition: Benchmarks, Adaptive Optimizers and Gradient Clipping [42.2819343711085]
DP付きFLは、少なくとも数百万のユーザを抱える場合、強力なプライバシー保証の下で有効であることを示す。
ASR の DP と FL の高 (低い) 個体群に外挿した場合, 単語誤り率を 1.3% に抑えたユーザレベル (7.2, 10-9$)-DP (4.5, 10-9$)-DP を実現する。
論文 参考訳(メタデータ) (2023-09-29T19:11:49Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - The Equalization Losses: Gradient-Driven Training for Long-tailed Object
Recognition [84.51875325962061]
本稿では,長距離問題に対処するための勾配駆動型学習機構を提案する。
我々は、勾配駆動損失関数の新たなファミリー、すなわち等化損失を導入する。
我々の手法は一貫してベースラインモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T16:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。