論文の概要: Mask the Target: A Plug-and-Play Regularizer Against LoRA Forgetting
- arxiv url: http://arxiv.org/abs/2605.29498v1
- Date: Thu, 28 May 2026 07:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.943272
- Title: Mask the Target: A Plug-and-Play Regularizer Against LoRA Forgetting
- Title(参考訳): Mask the Target: LoRAフォーミングに対するプラグイン・アンド・プレイの正規化ツール
- Authors: Runze Xu, Arpit Garg, Hemanth Saratchandran, Simon Lucey,
- Abstract要約: Low-Rank Adaptation (LoRA)は、大規模言語モデルに適応するための最も広く使われている微調整機構の1つである。
適応分布がモデルのオリジナルのトレーニングやアライメントの分布と大きく異なる場合,この考え方は特に深刻なものとなる。
この制約に触発されて、我々はLoRAベースの適応が、リプレイフリー環境で忘れることに対する新しい学習のバランスをいかに改善するかを考察した。
- 参考スコア(独自算出の注目度): 28.32780832670352
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Low-Rank Adaptation (LoRA) has become one of the most widely used fine-tuning mechanisms for adapting large language models to new domains, tasks, and users. Yet adaptation performance alone can obscure an important failure mode: LoRA updates may improve performance on the target distribution while degrading prior capabilities learned during pretraining and alignment. We show that this forgetting becomes especially severe when the adaptation distribution differs substantially from the models original training or alignment distributions. The challenge is amplified in practical settings, where the original training and alignment data are typically unavailable. Motivated by this constraint, we study how LoRA based adaptation balances new learning against forgetting in a replay-free setting, and introduce a simple output space regularizer that can be added directly to existing training pipelines. Our method removes the ground-truth token from both the base and adapted model distributions, renormalizes the remaining probabilities, and applies KL regularization only over the non-target vocabulary. This preserves the base models relative preferences among alternative tokens without directly opposing the cross-entropy signal required for adaptation. As the regularizer acts only at the loss level, it requires no replay data, architectural changes, adapter redesign, or inference-time overhead, and can be applied directly to existing LoRA variants. Across all LoRA variants tested and across various backbones, our method improves the frontier between new learning and forgetting when the adaptation distribution differs substantially from the base models original training or alignment distributions, suggesting a broadly applicable route toward more reliable LLM updating.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)は、大規模言語モデルを新しいドメイン、タスク、ユーザに適用するための最も広く使われている微調整機構の1つである。
LoRA更新は、事前トレーニングとアライメントで学んだ事前能力を低下させながら、ターゲットのディストリビューションのパフォーマンスを改善する可能性がある。
適応分布がモデルのオリジナルのトレーニングやアライメントの分布と大きく異なる場合,この考え方は特に深刻なものとなる。
この課題は、オリジナルのトレーニングとアライメントデータが通常利用できない、実践的な設定で増幅されている。
この制約によって、我々はLoRAベースの適応がリプレイフリー環境で忘れることに対して新しい学習のバランスをとる方法を研究し、既存のトレーニングパイプラインに直接追加できる単純な出力空間正規化器を導入する。
提案手法では, 基底および適応モデル分布から基底構造トークンを除去し, 残りの確率を正規化し, KL正則化を非ターゲット語彙にのみ適用する。
これは、適応に必要なクロスエントロピー信号に直接反対することなく、代替トークン間のベースモデル相対的嗜好を保存する。
レギュレータは損失レベルでのみ動作するため、リプレイデータ、アーキテクチャの変更、アダプタの再設計、推論時のオーバーヘッドは必要とせず、既存のLoRAの亜種に直接適用することができる。
提案手法は, 各種バックボーン上で試験されたLoRA変種すべてにまたがって, 適応分布が基本モデルのオリジナルトレーニングやアライメント分布と大きく異なる場合, 新たな学習と忘れとのフロンティアを改善し, より信頼性の高いLCM更新に向けて広く適用可能な経路を示唆する。
関連論文リスト
- CRAFT: Forgetting-Aware Intervention-Based Adaptation for Continual Learning [7.180013165859104]
CRAFTは、モデルの重み付けの更新を避ける継続的学習フレームワークである。
まず、各タスクを出力分布のばらつきに基づいて、類似したタスクのグループにルーティングする。
すると、KL(Kullback-Leibler)の偏差をグループの先行状態に対して微調整する。
最後に、更新されたタスクの介入を同じKL信号を使用して共有表現にマージする。
論文 参考訳(メタデータ) (2026-05-07T06:24:13Z) - LoFA: Learning to Predict Personalized Priors for Fast Adaptation of Visual Generative Models [50.46815266062554]
Low-Rank Adaptation (LoRA) は、タスク固有のデータと長い最適化の要求のため、実用的ではない。
高速モデル適応のためのパーソナライズされた事前情報を効率的に予測する汎用フレームワークであるLoFAを提案する。
提案手法は,複数のタスクやユーザプロンプトにまたがる,数秒以内の高品質なパーソナライズ前処理を常に予測し,処理時間を要する従来のLoRAよりも優れています。
論文 参考訳(メタデータ) (2025-12-09T16:39:31Z) - Test Time Adaptation Using Adaptive Quantile Recalibration [19.97106215064574]
ドメイン適応は、現実世界のシナリオにおけるディープラーニングモデルの一般化性を高めるための重要な戦略である。
バッチ正規化統計更新に基づく最近のテスト時間適応手法は、教師なし適応を可能にする。
本稿では、チャネルワイズで量子を整列させることにより、事前アクティベーション分布を変更するテスト時間適応手法であるAdaptive Quantile Recalibration (AQR)を提案する。
論文 参考訳(メタデータ) (2025-11-05T03:12:30Z) - Regularizing Subspace Redundancy of Low-Rank Adaptation [54.473090597164834]
本稿では、マッピング部分空間間の冗長性を明示的にモデル化し、低ランク適応のサブスペース冗長性を適応的に正規化する手法であるReSoRAを提案する。
提案手法は、視覚言語検索や標準的な視覚分類ベンチマークにおいて、様々なバックボーンやデータセットにまたがる既存のPETL手法を一貫して促進する。
トレーニングの監督として、ReSoRAは追加の推論コストなしで、プラグイン・アンド・プレイ方式で既存のアプローチにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-07-28T11:52:56Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。
現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。
そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文 参考訳(メタデータ) (2024-12-03T07:25:30Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。