論文の概要: Resolving Conflicts in Lifelong Learning via Aligning Updates in Subspaces
- arxiv url: http://arxiv.org/abs/2512.08960v1
- Date: Fri, 28 Nov 2025 15:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.573261
- Title: Resolving Conflicts in Lifelong Learning via Aligning Updates in Subspaces
- Title(参考訳): サブスペースにおける更新調整による生涯学習における矛盾の解消
- Authors: Yueer Zhou, Yichen Wu, Ying Wei,
- Abstract要約: Low-Rank Adaptation (LoRA)は効果的な継続的学習を可能にするが、しばしば破滅的な忘れ込みに悩まされる。
そこで我々は,PS-LoRAを提案する。PS-LoRAは最適化サブ空間内で更新を調整することで競合を解決するためのフレームワークである。
提案手法では,先行知識との整合性を確保するために,矛盾する方向と大小偏差をペナルティ化する二重正則化手法を用いている。
- 参考スコア(独自算出の注目度): 12.630494786258842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-Rank Adaptation (LoRA) enables efficient Continual Learning but often suffers from catastrophic forgetting due to destructive interference between tasks. Our analysis reveals that this degradation is primarily driven by antagonistic directional updates where new task gradients directly oppose the historical weight trajectory. To address this, we propose PS-LoRA (Parameter Stability LoRA), a framework designed to resolve conflicts by aligning updates within the optimization subspace. Our approach employs a dual-regularization objective that penalizes conflicting directions and constrains magnitude deviations to ensure consistency with prior knowledge. Additionally, we implement a magnitude-based merging strategy to consolidate sequential adapters into a robust representation without retraining. Experiments on NLP and Vision benchmarks show that PS-LoRA outperforms state-of-the-art methods by preserving the stability of learned representations while efficiently adapting to new domains.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)は、効率的な継続的学習を可能にするが、タスク間の破壊的な干渉による破滅的な忘れ込みに悩まされることが多い。
分析の結果,この劣化は主に,新しいタスク勾配が過去の重み軌道に直接反対する対角方向の更新によって引き起こされることが明らかとなった。
そこで我々は,PS-LoRA (Parameter Stability LoRA) を提案する。
提案手法では,先行知識との整合性を確保するために,矛盾する方向と大小偏差をペナルティ化する二重正則化手法を用いている。
さらに、逐次的なアダプタをリトレーニングせずに頑健な表現にまとめるために、等級に基づくマージ戦略を実装した。
NLPおよびVisionベンチマークの実験により、PS-LoRAは、学習された表現の安定性を保ちながら、新しい領域に効率よく適応することで、最先端の手法よりも優れていることが示された。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Task-Driven Subspace Decomposition for Knowledge Sharing and Isolation in LoRA-based Continual Learning [82.30237756328596]
Low-Rank Adaptation (LoRA) は継続学習 (CL) において注目を集めている。
いくつかのLoRAベースのCLメソッドは、更新スペースを分離することでタスク間の干渉を減らす。
LoDAは、一般的なタスク固有のLoRAサブスペースを構築するために、タスク駆動の分解を実行する。
論文 参考訳(メタデータ) (2026-02-27T02:31:00Z) - Reward-free Alignment for Conflicting Objectives [12.275610380458119]
我々は、競合対象(RACO)に対するリワードフリーアライメントフレームワークを提案する。
RACOはペアワイズ選好データを直接利用し、競合-逆勾配勾配の新たなクリッピング変種を通じて勾配衝突を解消する。
ユーザが指定した目標重みを尊重するパレート臨界点に対する収束保証を行い、クリッピングが2目的設定における収束率を厳密に改善できることを示す。
論文 参考訳(メタデータ) (2026-02-02T18:59:52Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Decomposing and Composing: Towards Efficient Vision-Language Continual Learning via Rank-1 Expert Pool in a Single LoRA [50.97792275353563]
単一低ランク適応 (LoRA) モジュールを分解可能な Rank-1 エキスパートプールとして再構成する,新しいフレームワークを提案する。
本手法では,このエキスパートプールから[Guided]トークンのセマンティクスに導かれて,疎結合でタスク固有の更新を動的に作成することを学ぶ。
論文 参考訳(メタデータ) (2026-01-30T10:54:51Z) - Less is More: Clustered Cross-Covariance Control for Offline RL [13.198112768636207]
オフライン強化学習における基本的な課題は、分散シフトである。
ローカルなリプレイパーティションへの更新を制限する分割バッファサンプリングを提案する。
また,各更新における共分散誘発バイアスを解消する,明確な勾配に基づく補正ペナルティも導入する。
論文 参考訳(メタデータ) (2026-01-28T16:55:04Z) - VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation [31.201343197395573]
ビジュアル生成はAutoRegressive(AR)、拡散、Visual AutoRegressive(VAR)の3つのパラダイムで支配されている。
ARや拡散とは異なり、VARは生成ステップをまたいだ異種入力構造で動作し、厳しい非同期ポリシーの衝突を引き起こす。
本稿では,これらの対立を明示的に管理することで,グループ相対政策最適化(GRPO)を強化する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-05T16:36:40Z) - Merge before Forget: A Single LoRA Continual Learning via Continual Merging [13.950131092976248]
現在のLow-Rank Adaptation (LoRA) 連続学習技術は、学習済みのLoRAを保持・凍結したり、忘れることを避けるためにデータ表現を生成することが多い。
本稿では,LoRAの更新を1つの統一LoRAに逐次マージする連続学習手法を提案する。
論文 参考訳(メタデータ) (2025-12-28T17:37:57Z) - The Realignment Problem: When Right becomes Wrong in LLMs [6.8304813545377]
大規模な言語モデルと人間の価値の整合性は、安全なデプロイメントの中心であるが、現在のモデルは、進化する規範やポリシーに追随しない。
既存の未学習の手法は、正確なポリシー更新を有効にするのではなく、実用性を損なう鈍い手段として機能する。
本稿では,プログラミング政策問題として再認識する原則的アンラーニングの枠組みであるTRACEを紹介する。
論文 参考訳(メタデータ) (2025-11-04T14:52:58Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - SplitLoRA: Balancing Stability and Plasticity in Continual Learning Through Gradient Space Splitting [68.00007494819798]
継続的な学習には、安定性を保ちながら複数のタスクを連続的に学習するモデルが必要である。
グラディエント・プロジェクションはCLにおいて有効で一般的なパラダイムとして現れ、以前に学習したタスクの勾配空間を2つの部分空間に分割する。
新しいタスクは小部分空間内で効果的に学習され、これにより以前取得した知識との干渉が軽減される。
既存の勾配射影法は、勾配空間を適切に分割することが困難であるため、塑性と安定性の最適なバランスを達成するのに苦労する。
論文 参考訳(メタデータ) (2025-05-28T13:57:56Z) - C-LoRA: Continual Low-Rank Adaptation for Pre-trained Models [26.560293264523903]
Low-Rank Adaptation (LoRA) は、自然言語処理やコンピュータビジョンなどの分野で広く応用されている効率的な微調整手法である。
連続学習のためのLoRAの新たな拡張である連続低ランク適応(C-LoRA)を提案する。
C-LoRAは学習可能なルーティングマトリックスを使用して、タスク間のパラメータ更新を動的に管理する。
論文 参考訳(メタデータ) (2025-02-25T07:35:36Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - Controlled Low-Rank Adaptation with Subspace Regularization for Continued Training on Large Language Models [13.56631686493347]
大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示すが、新しいタスクを学ぶ際に破滅的な忘れに直面している。
本稿では,LoRA 構造上の部分空間正規化手法である Controlled LoRA (CLoRA) を提案する。
論文 参考訳(メタデータ) (2024-10-22T08:27:23Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。