論文の概要: SLIM: Let LLM Learn More and Forget Less with Soft LoRA and Identity Mixture
- arxiv url: http://arxiv.org/abs/2410.07739v2
- Date: Thu, 23 Jan 2025 02:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:56:55.956207
- Title: SLIM: Let LLM Learn More and Forget Less with Soft LoRA and Identity Mixture
- Title(参考訳): SLIM: LLMがSoft LoRAとIdentity Mixtureでより学習し、忘れられるようにする
- Authors: Jiayi Han, Liang Du, Hongwei Du, Xiangguo Zhou, Yiwen Wu, Weibo Zheng, Donghong Han,
- Abstract要約: 下流タスクのためのモデル全体のトレーニングは費用がかかるため、破滅的な忘れ忘れをしがちです。
我々は,Soft LoRA と Identity Mixture (SLIM) をベースとした,新たな専門家(MoE) フレームワークを提案する。
SLIMはLoRAアダプタとスキップ接続間の動的ルーティングを可能にし、忘れの抑制を可能にする。
- 参考スコア(独自算出の注目度): 7.543093479330315
- License:
- Abstract: Although many efforts have been made, it is still a challenge to balance the training budget, downstream performance, and the general capabilities of the LLMs in many applications. Training the whole model for downstream tasks is expensive, and could easily result in catastrophic forgetting. By introducing parameter-efficient fine-tuning (PEFT), the training cost could be reduced, but it still suffers from forgetting, and limits the learning on the downstream tasks. To efficiently fine-tune the LLMs with less limitation to their downstream performance while mitigating the forgetting of general capabilities, we propose a novel mixture of expert (MoE) framework based on Soft LoRA and Identity Mixture (SLIM), that allows dynamic routing between LoRA adapters and skipping connection, enables the suppression of forgetting. We adopt weight-yielding with sliding clustering for better out-of-domain distinguish to enhance the routing. We also propose to convert the mixture of low-rank adapters to the model merging formulation and introduce fast dynamic merging of LoRA adapters to keep the general capabilities of the base model. Extensive experiments demonstrate that the proposed SLIM is comparable to the state-of-the-art PEFT approaches on the downstream tasks while achieving the leading performance in mitigating catastrophic forgetting.
- Abstract(参考訳): 多くの取り組みがなされているが、多くのアプリケーションにおいて、トレーニング予算、下流性能、LLMの一般的な能力のバランスをとることは依然として課題である。
下流タスクのためのモデル全体のトレーニングは費用がかかるため、破滅的な忘れ忘れをしがちです。
パラメータ効率の微調整(PEFT)を導入することで、トレーニングコストを削減できるが、依然として忘れられ、下流タスクでの学習が制限される。
本研究は,LLMのダウンストリーム性能を抑えながら効率よく微調整を行うため,Soft LoRA と Identity Mixture (SLIM) をベースとした新規な専門家(MoE) フレームワークを提案し,LoRA アダプタとスキップ接続間の動的ルーティングを実現し,忘れの抑制を可能にする。
我々は、スライディングクラスタリングによる重み付けを、ルーティングを強化するために、ドメイン外の区別を改善するために採用する。
また,低ランクアダプタの混合をモデルマージモデルに変換し,ベースモデルの汎用性を維持するために,LoRAアダプタの高速な動的マージを導入することを提案する。
大規模実験により,提案したSLIMは,ダウンストリームタスクにおける最先端のPEFTアプローチと同等であり,破滅的忘れを緩和する上での先進的な性能を実現していることがわかった。
関連論文リスト
- Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - MiLoRA: Efficient Mixture of Low-Rank Adaptation for Large Language Models Fine-tuning [9.91790333647256]
低ランク適応法(LoRA)とその混合実験法(MOE)は,高効率なパラメータ効率微調整法(PEFT)である。
新規かつ効率的なLoRA変種であるMiLoRAを提案する。
MiLoRAは、各LoRAモジュールを専門家として考慮し、プロンプト対応のルーティング機構を採用することで、従来のMOEスタイルのLoRAメソッドと異なる。
論文 参考訳(メタデータ) (2024-10-23T17:04:40Z) - LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。
LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。
実験により、LoRA-IRは計算効率を維持しつつ、14のIRタスクと29のベンチマークでSOTA性能を達成することが示された。
論文 参考訳(メタデータ) (2024-10-20T13:00:24Z) - Tensor Train Low-rank Approximation (TT-LoRA): Democratizing AI with Accelerated LLMs [1.5503410315996757]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクで顕著な機能を示している。
しかし、LLMの複雑さはますます増大し、膨大な計算資源を必要としている。
本稿では,新しいパラメータ効率細調整(PEFT)手法であるTrain Low-Rank Approximation (TT-LoRA)を紹介する。
論文 参考訳(メタデータ) (2024-08-02T04:45:58Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models [4.978361907192563]
MeteoRAはスケーラブルで効率的なフレームワークで、複数のタスク固有のLoRAアダプタをベースLLMに再利用する。
MeteoRAは複合タスクの処理において優れた性能を実現し、単一の推論パスで10のシーケンシャルな問題を効果的に解決する。
論文 参考訳(メタデータ) (2024-05-19T20:46:07Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。