論文の概要: Orthogonal Subspace Learning for Language Model Continual Learning
- arxiv url: http://arxiv.org/abs/2310.14152v1
- Date: Sun, 22 Oct 2023 02:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 01:31:08.410751
- Title: Orthogonal Subspace Learning for Language Model Continual Learning
- Title(参考訳): 言語モデル連続学習のための直交部分空間学習
- Authors: Xiao Wang, Tianze Chen, Qiming Ge, Han Xia, Rong Bao, Rui Zheng, Qi
Zhang, Tao Gui, Xuanjing Huang
- Abstract要約: O-LoRAは、言語モデルにおける継続学習のためのシンプルで効率的なアプローチである。
提案手法は,パラメータの余分な追加コストのみを誘導し,再生にユーザデータストレージを必要としない。
- 参考スコア(独自算出の注目度): 45.35861158925975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benefiting from massive corpora and advanced hardware, large language models
(LLMs) exhibit remarkable capabilities in language understanding and
generation. However, their performance degrades in scenarios where multiple
tasks are encountered sequentially, also known as catastrophic forgetting. In
this paper, we propose orthogonal low-rank adaptation (O-LoRA), a simple and
efficient approach for continual learning in language models, effectively
mitigating catastrophic forgetting while learning new tasks. Specifically,
O-LoRA learns tasks in different (low-rank) vector subspaces that are kept
orthogonal to each other in order to minimize interference. Our method induces
only marginal additional parameter costs and requires no user data storage for
replay. Experimental results on continual learning benchmarks show that our
method outperforms state-of-the-art methods. Furthermore, compared to previous
approaches, our method excels in preserving the generalization ability of LLMs
on unseen tasks.
- Abstract(参考訳): 大量のコーパスと高度なハードウェアを取り入れた大規模言語モデル(LLM)は、言語理解と生成において優れた能力を示す。
しかし、複数のタスクが連続的に遭遇するシナリオではパフォーマンスが低下する。
本稿では,言語モデルにおける連続学習のための単純かつ効率的な手法である直交低ランク適応 (o-lora) を提案する。
特に、o-loraは干渉を最小限に抑えるために互いに直交する異なる(低ランク)ベクトル部分空間でタスクを学ぶ。
提案手法は,パラメータの余分な追加コストのみを誘導し,再生にユーザデータストレージを必要としない。
連続学習ベンチマークの実験結果から,本手法は最先端手法よりも優れていた。
さらに,従来の手法に比べ,非知覚タスクにおけるllmの一般化能力の維持に優れていた。
関連論文リスト
- SwitchCIT: Switching for Continual Instruction Tuning of Large Language Models [14.085371250265224]
大規模言語モデル(LLM)は、様々な領域、特に一般的な言語理解において印象的な能力を発揮している。
しかし、これらのモデルは大量のテキストデータに基づいて訓練されており、命令によって引き起こされる特定のタスクに対して微妙に最適化されていないかもしれない。
本研究は, LLMの連続的な命令学習において, パラメータ効率の高いチューニングモデルに演算をルーティングする切替機構を通じて, 破滅的な忘れに対処するものである。
論文 参考訳(メタデータ) (2024-07-16T14:37:33Z) - To Each (Textual Sequence) Its Own: Improving Memorized-Data Unlearning in Large Language Models [3.4990427823966828]
LLMは、テキスト生成期間中に、トレーニングされたテキストシーケンスを記憶し、動詞の入力シーケンスを退避させる。
この事実は、プライバシーと関連する問題(例えば、著作権)の原因として知られている。
LLMのアンラーニングは、これらの副作用に適切に対処する新しいアルゴリズムを考案する形で行われる。
論文 参考訳(メタデータ) (2024-05-06T01:21:50Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Continually Learning Self-Supervised Representations with Projected
Functional Regularization [39.92600544186844]
近年の自己教師あり学習手法は高品質な画像表現を学習でき、教師ありの手法でギャップを埋めている。
これらの手法は、新たな知識を段階的に取得することができない -- 実際、主にIDデータによる事前学習フェーズとしてのみ使用される。
従来の知識を忘れないように,機能正規化の利用を提案する。
論文 参考訳(メタデータ) (2021-12-30T11:59:23Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。