論文の概要: Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs
- arxiv url: http://arxiv.org/abs/2406.16797v2
- Date: Tue, 25 Jun 2024 13:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:02:11.167365
- Title: Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs
- Title(参考訳): Lottery Ticket Adaptation: LLMにおける破壊的干渉の軽減
- Authors: Ashwinee Panda, Berivan Isik, Xiangyu Qi, Sanmi Koyejo, Tsachy Weissman, Prateek Mittal,
- Abstract要約: Lottery Ticket Adaptation (LoTA) はスパース適応法であり、モデルのスパースサブネットワークのみを特定し最適化する。
LoTAは、完全な微調整と低ランク適応(LoRA)よりも優れたパフォーマンスを得る
- 参考スコア(独自算出の注目度): 44.58185032979828
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing methods for adapting large language models (LLMs) to new tasks are not suited to multi-task adaptation because they modify all the model weights -- causing destructive interference between tasks. The resulting effects, such as catastrophic forgetting of earlier tasks, make it challenging to obtain good performance on multiple tasks at the same time. To mitigate this, we propose Lottery Ticket Adaptation (LoTA), a sparse adaptation method that identifies and optimizes only a sparse subnetwork of the model. We evaluate LoTA on a wide range of challenging tasks such as instruction following, reasoning, math, and summarization. LoTA obtains better performance than full fine-tuning and low-rank adaptation (LoRA), and maintains good performance even after training on other tasks -- thus, avoiding catastrophic forgetting. By extracting and fine-tuning over lottery tickets (or sparse task vectors), LoTA also enables model merging over highly dissimilar tasks. Our code is made publicly available at https://github.com/kiddyboots216/lottery-ticket-adaptation.
- Abstract(参考訳): 大規模言語モデル(LLM)を新しいタスクに適用するための既存の方法は、すべてのモデルの重みを変更するため、マルチタスク適応には適していない。
初期のタスクの破滅的な忘れなど、結果として生じる影響は、複数のタスクで優れたパフォーマンスを得るのを同時に困難にしている。
これを軽減するために,モデルのスパースサブネットワークのみを特定し最適化するスパース適応法であるLottery Ticket Adaptation (LoTA)を提案する。
我々はLoTAを命令追従、推論、数学、要約といった幅広い課題に対して評価する。
LoTAは完全な微調整と低ランク適応(LoRA)よりも優れたパフォーマンスを実現し、他のタスクをトレーニングしても優れたパフォーマンスを維持する。
宝くじ(またはスパースタスクベクトル)を抽出して微調整することにより、LoTAは、非常に異なるタスクをモデルマージすることを可能にする。
私たちのコードはhttps://github.com/kiddyboots216/lottery-tket-adaptationで公開されています。
関連論文リスト
- Robust Multi-Task Learning with Excess Risks [24.695243608197835]
マルチタスク学習(MTL)は、全てのタスク損失の凸結合を最適化することにより、複数のタスクのジョイントモデルを学ぶことを検討する。
既存の方法は適応的な重み更新方式を用いており、各損失に基づいてタスク重みを動的に調整し、困難なタスクを優先順位付けする。
本稿では,過度リスクに基づくタスクバランス手法であるMulti-Task Learning with Excess Risks (ExcessMTL)を提案する。
論文 参考訳(メタデータ) (2024-02-03T03:46:14Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning
in NLP Using Fewer Parameters & Less Data [5.689320790746046]
マルチタスク学習(MTL)ネットワークは、異なるタスク間で学習知識を伝達するための有望な方法として登場した。
しかし、MTLは、低リソースタスクへの過度な適合、破滅的な忘れ込み、負のタスク転送といった課題に対処しなければならない。
本稿では,新しい条件付アテンション機構とタスク条件付きモジュール群からなるトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-19T02:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。