論文の概要: Speciality vs Generality: An Empirical Study on Catastrophic Forgetting
in Fine-tuning Foundation Models
- arxiv url: http://arxiv.org/abs/2309.06256v1
- Date: Tue, 12 Sep 2023 14:16:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 12:41:00.787694
- Title: Speciality vs Generality: An Empirical Study on Catastrophic Forgetting
in Fine-tuning Foundation Models
- Title(参考訳): 特殊対一般性:微調整基礎モデルにおける破滅的忘れ方に関する実証的研究
- Authors: Yong Lin, Lu Tan, Hangyu Lin, Zeming Zheng, Renjie Pi, Jipeng Zhang,
Shizhe Diao, Haoxiang Wang, Han Zhao, Yuan Yao, and Tong Zhang
- Abstract要約: VLM(Vision Language Models)やLLM(Large Language Models)を含む基礎モデルは、様々な分散やタスクを扱うために$ Generality$を持っている。
基礎モデルの微調整は、タスクのパフォーマンスを高めたり、モデルの振る舞いを人間の期待に合わせるための一般的なプラクティスである。
しかし、微調整に使われる小さなデータセットは、事前トレーニング中に遭遇する多様な分布やタスクを適切にカバーしていない可能性がある。
- 参考スコア(独自算出の注目度): 37.78919009184374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models, including Vision Language Models (VLMs) and Large Language
Models (LLMs), possess the $generality$ to handle diverse distributions and
tasks, which stems from their extensive pre-training datasets. The fine-tuning
of foundation models is a common practice to enhance task performance or align
the model's behavior with human expectations, allowing them to gain
$speciality$. However, the small datasets used for fine-tuning may not
adequately cover the diverse distributions and tasks encountered during
pre-training. Consequently, the pursuit of speciality during fine-tuning can
lead to a loss of {generality} in the model, which is related to catastrophic
forgetting (CF) in deep learning. In this study, we demonstrate this phenomenon
in both VLMs and LLMs. For instance, fine-tuning VLMs like CLIP on ImageNet
results in a loss of generality in handling diverse distributions, and
fine-tuning LLMs like Galactica in the medical domain leads to a loss in
following instructions and common sense.
To address the trade-off between the speciality and generality, we
investigate multiple regularization methods from continual learning, the weight
averaging method (Wise-FT) from out-of-distributional (OOD) generalization,
which interpolates parameters between pre-trained and fine-tuned models, and
parameter-efficient fine-tuning methods like Low-Rank Adaptation (LoRA). Our
findings show that both continual learning and Wise-ft methods effectively
mitigate the loss of generality, with Wise-FT exhibiting the strongest
performance in balancing speciality and generality.
- Abstract(参考訳): Vision Language Models (VLM) やLarge Language Models (LLMs) を含む基礎モデルは、様々な分散やタスクを扱うために$ Generality$を持っている。
ファウンデーションモデルの微調整は、タスクパフォーマンスを高めたり、モデルの振る舞いを人間の期待と整合させ、$speciality$を得られるようにする一般的なプラクティスである。
しかし、微調整に使われる小さなデータセットは、事前トレーニング中に遭遇する多様な分布やタスクを適切にカバーしていない可能性がある。
その結果、微調整中の特殊性の追求は、ディープラーニングにおける破滅的忘れ(CF)に関連するモデルにおける一般性の喪失につながる可能性がある。
本研究では,この現象をVLMとLLMの両方で実証する。
例えば、ImageNet上のCLIPのような微調整のVLMは、多様な分布を扱う際の一般性の喪失を招き、医療領域におけるGalacticaのような微調整のLLMは、次の指示と常識の喪失をもたらす。
専門性と一般性のトレードオフに対処するために,連続学習からの複数の正規化法,事前学習モデルと微調整モデルのパラメータを補間するout-of-distributional(ood)一般化からの重み平均化法(wise-ft),低ランク適応(lora)などのパラメータ効率の良い微調整法について検討した。
本研究は,Wise-FTが専門性と一般性のバランスを保ち,継続学習とWise-ftの両手法が汎用性の喪失を効果的に軽減することを示した。
関連論文リスト
- Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - Uncertainty-Penalized Reinforcement Learning from Human Feedback with
Diverse Reward LoRA Ensembles [26.955375398765085]
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の整合性のための有望なパラダイムとして出現する。
本稿では,既存のRLHF法でよく用いられるKL正則化の弱点を観察し,過度な最適化に対処する。
本稿では,RLファインタニング中の不確実性正則化を取り入れた不確実性補償RLHF(UP-RLHF)を提案する。
論文 参考訳(メタデータ) (2023-12-30T14:14:14Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本研究では,多彩な嗜好が報酬モデルに及ぼす影響について検討する。
その結果,様々な選好データが報酬モデルのキャリブレーション性能に悪影響を及ぼすことがわかった。
本稿では,RMの校正性能を高めるための多目的リワード学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Understanding the Effects of RLHF on LLM Generalisation and Diversity [26.56388427640671]
人間のフィードバック(RLHF)からの強化学習によって微調整された大規模言語モデル(LLM)は、これまで最も広くデプロイされたAIモデルの一部で使用されている。
プロセスの各段階が2つの重要な特性、すなわちアウト・オブ・ディストリビューション(OOD)の一般化と出力の多様性にどのように影響するかを解析する。
論文 参考訳(メタデータ) (2023-10-10T09:25:44Z) - Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity [88.62935593360162]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。
本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。
OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文 参考訳(メタデータ) (2023-10-08T14:22:58Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z) - Supervised Hyperalignment for multi-subject fMRI data alignment [81.8694682249097]
本稿では,MVP解析における機能的アライメントを改善するために,SHA(Supervised Hyperalignment)手法を提案する。
マルチオブジェクトデータセットの実験では、SHA法は最大19%の性能がマルチクラス問題に対して達成されている。
論文 参考訳(メタデータ) (2020-01-09T09:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。