論文の概要: Efficient Continual Learning in Neural Machine Translation: A Low-Rank Adaptation Approach
- arxiv url: http://arxiv.org/abs/2512.09910v1
- Date: Wed, 10 Dec 2025 18:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.642137
- Title: Efficient Continual Learning in Neural Machine Translation: A Low-Rank Adaptation Approach
- Title(参考訳): ニューラルネットワーク翻訳における効率的な連続学習:低ランク適応手法
- Authors: Salvador Carrión, Francisco Casacuberta,
- Abstract要約: ニューラルネットワーク翻訳(NMT)における継続的な学習は、破滅的な忘れ込みと、再訓練の計算コストの増大という2つの課題に直面している。
本研究は,これらの課題に対処するためのパラメータ効率の高いフレームワークとしてローランド適応(LoRA)を確立する。
- 参考スコア(独自算出の注目度): 0.4870012761464388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning in Neural Machine Translation (NMT) faces the dual challenges of catastrophic forgetting and the high computational cost of retraining. This study establishes Low-Rank Adaptation (LoRA) as a parameter-efficient framework to address these challenges in dedicated NMT architectures. We first demonstrate that LoRA-based fine-tuning adapts NMT models to new languages and domains with performance on par with full-parameter techniques, while utilizing only a fraction of the parameter space. Second, we propose an interactive adaptation method using a calibrated linear combination of LoRA modules. This approach functions as a gate-free mixture of experts, enabling real-time, user-controllable adjustments to domain and style without retraining. Finally, to mitigate catastrophic forgetting, we introduce a novel gradient-based regularization strategy specifically designed for low-rank decomposition matrices. Unlike methods that regularize the full parameter set, our approach weights the penalty on the low-rank updates using historical gradient information. Experimental results indicate that this strategy efficiently preserves prior domain knowledge while facilitating the acquisition of new tasks, offering a scalable paradigm for interactive and continual NMT.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)における継続的な学習は、破滅的な忘れ込みと、再訓練の計算コストの増大という2つの課題に直面している。
本研究は,NMTアーキテクチャにおいて,これらの課題に対処するためのパラメータ効率の高いフレームワークとしてローランド適応(LoRA)を確立した。
まず,LoRAに基づくファインチューニングが,パラメータ空間のごく一部を生かしながら,実測値と同等の性能を持つ新しい言語やドメインにNMTモデルを適用することを実証した。
第2に,LoRAモジュールの校正線形結合を用いた対話型適応手法を提案する。
このアプローチは、ゲートフリーな専門家の混合として機能し、ドメインとスタイルのリアルタイムかつユーザ制御可能な調整を可能にする。
最後に, 低次分解行列に特化して設計された勾配型正規化戦略を導入する。
パラメータ集合を正規化する手法とは異なり、我々の手法は歴史的勾配情報を用いて低ランク更新に対するペナルティを重み付けする。
実験の結果、この戦略は、対話的かつ連続的なNMTのためのスケーラブルなパラダイムを提供するとともに、新しいタスクの獲得を容易にし、ドメインの知識を効率よく保存することを示している。
関連論文リスト
- Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [57.514786046966265]
textbfPerturb-and-Merge(P&M)は,モデルマージをCLパラダイムに統合し,忘れを緩和する新しい連続学習フレームワークである。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。
適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。
我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文 参考訳(メタデータ) (2025-04-09T17:59:42Z) - AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation [12.07880147193174]
モデルパラメータ内のデータと圧縮可能な力学の固有な低次元構造を利用することで、計算負担を伴わずにパラメータ化の利点を享受できることが示される。
提案手法は,低ランク行列と微調整言語モデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-06-06T14:29:49Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。