論文の概要: Not How Many, But Which: Parameter Placement in Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2605.12207v1
- Date: Tue, 12 May 2026 14:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.93623
- Title: Not How Many, But Which: Parameter Placement in Low-Rank Adaptation
- Title(参考訳): 低ランク適応におけるパラメータ配置
- Authors: Arijit Sehanobish, Charles Lovering,
- Abstract要約: LoRAアダプタのB行列内のトレーニング可能なエントリ(Aフリーズ)の固定予算が$k$であるなら、どの$k$が重要だろうか?
教師付き微調整、ランダム、インシデントされたサブセットは、同等のパフォーマンスを達成する。
GRPOのベースモデルでは、ランダム配置はベースモデルよりも改善されず、勾配インフォームド配置は標準のLoRA精度を回復する。
- 参考スコア(独自算出の注目度): 7.686602368047758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the \textit{parameter placement problem}: given a fixed budget of $k$ trainable entries within the B matrix of a LoRA adapter (A frozen), does the choice of which $k$ matter? Under supervised fine-tuning, random and informed subsets achieve comparable performance. Under GRPO on base models, random placement fails to improve over the base model, while gradient-informed placement recovers standard LoRA accuracy. This regime dependence traces to gradient structure: SFT gradients are low-rank and directionally stable, so any subset accumulates coherent updates; GRPO gradients are high-rank and near-orthogonal across steps, so only elements with consistently signed gradients retain the learning signal. Our scoring procedure identifies these critical parameters in under 10 seconds at less than 0.5% of training cost. Selected parameters concentrate on residual-stream-writing projections (V, O, Down), stable across model families and scales (1.5B - 8B).
- Abstract(参考訳): 固定予算が$k$でLoRAアダプタ(Aフリーズ)のB行列内のトレーニング可能なエントリが与えられた場合、どの$k$が重要なのか?
教師付き微調整、ランダム、インシデントされたサブセットは、同等のパフォーマンスを達成する。
GRPOのベースモデルでは、ランダム配置はベースモデルよりも改善されず、勾配インフォームド配置は標準のLoRA精度を回復する。
SFT勾配は低ランクで方向安定なので、任意の部分集合はコヒーレントな更新を蓄積し、GRPO勾配は高ランクであり、ステップをまたいでほぼ直交するので、一貫した符号付き勾配を持つ要素のみが学習信号を保持する。
評価手法は, トレーニングコストの0.5%未満で10秒未満でこれらの臨界パラメータを同定する。
選択されたパラメータは、残留ストリーム書き込みプロジェクション(V, O, Down)に集中し、モデルファミリとスケール(1.5B - 8B)にわたって安定である。
関連論文リスト
- Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward [69.99652051809737]
本研究では,検証自由な内在性勾配項再帰(VIGOR)を提案する。
VIGORはポリシーモデルのみを使用する単純な報酬です。
数学データのみに基づいてトレーニングされた場合、コードベンチマークへのクロスドメイン転送を示す。
論文 参考訳(メタデータ) (2026-05-11T03:15:37Z) - Robust stochastic first order methods in heavy-tailed noise via medoid mini-batch gradient sampling [1.439518478021091]
1次最適化フレームワークを考えると、各イテレーションで$K$独立分散データポイントサンプル(すなわち、d.d.)が描画される。
本稿では,ロバストDescent GradientMiniという新しい一階勾配アルゴリズムを提案する。
実験結果から, R-SGD-Mini とそのクリッピング変異体は, Median-of-Means 法と比較して一貫した性能を示した。
論文 参考訳(メタデータ) (2026-05-08T12:01:25Z) - IGU-LoRA: Adaptive Rank Allocation via Integrated Gradients and Uncertainty-Aware Scoring [9.250460219785188]
IGU-LoRAは、階層内統合勾配(IG)の感度を計算し、それらをランク割り当てのための階層レベルスコアに集約する適応ランクLoRAである。
IGU-LoRAは、一致したパラメータ予算でPEFTベースラインを一貫して上回り、下流の精度とロバスト性を改善している。
論文 参考訳(メタデータ) (2026-03-14T06:45:54Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning [55.03441672267886]
強化学習のための勾配整列データ選択法GradAlignを提案する。
GradAlignは,信頼できない報酬信号,分散不均衡,低ユーティリティトレーニングコーパスの3つにまたがって評価する。
論文 参考訳(メタデータ) (2026-02-25T01:54:50Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Rough Path Signatures: Learning Neural RDEs for Portfolio Optimization [0.0]
本稿では,絡み合ったログシグナチャをニューラル粗微分方程式のバックボーンに結合する BSDE/2BSDE 解法を提案する。
CVaR方式の端末は左尾リスクをターゲットとし、オプションの2列(2BSDE)のヘッドはリスクに敏感な制御のための曲率推定を提供する。
d=200では、強いベースラインではCVaR(0.99)=9.80%、強いベースラインでは12.00-13.10%、最低HJB残基(0.011)に達し、Zとガンマでは最低RMSEが得られる。
論文 参考訳(メタデータ) (2025-10-12T18:02:12Z) - PLUMAGE: Probabilistic Low rank Unbiased Min Variance Gradient Estimator for Efficient Large Model Training [21.695928776150808]
アクセラレータのメモリとネットワークの制約は、大きな言語モデルをトレーニングする際の主要なボトルネックとして現れている。
PLUMAGE: Probabilistic Low rank Unbiased Minimum v Ariance Gradient Estorを提案する。
PLUMAGEは,モデル全体で平均33%,GLUEベンチマークで平均28%,GaloREと同様の計算量およびメモリフットプリントで平均33%の事前トレーニング評価損失に対して,フルランク最適化のギャップを縮めることを実証的に実証した。
論文 参考訳(メタデータ) (2025-05-23T19:17:55Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。