論文の概要: Two-stage LLM Fine-tuning with Less Specialization and More
Generalization
- arxiv url: http://arxiv.org/abs/2211.00635v2
- Date: Wed, 4 Oct 2023 20:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 23:13:06.022426
- Title: Two-stage LLM Fine-tuning with Less Specialization and More
Generalization
- Title(参考訳): 特殊化の少ない2段LDMファインチューニングと一般化
- Authors: Yihan Wang, Si Si, Daliang Li, Michal Lukasik, Felix Yu, Cho-Jui
Hsieh, Inderjit S Dhillon, Sanjiv Kumar
- Abstract要約: 本稿では,Model Tuning (ProMoT) を用いた Prompt Tuning を提案する。
ProMoTは、タスク固有のフォーマット学習を、最初はプロンプトチューニングを行い、次にこのソフトプロンプトでモデル自体を微調整することで、追加的で取り外し可能なパラメータにオフロードする。
ProMoTは、微調整タスクと意味的に関連するコンテキスト内学習タスクの一般化を強化することもできる。
- 参考スコア(独自算出の注目度): 93.12197594813378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained large language models (LLMs) are general purpose problem solvers
applicable to a diverse set of tasks with prompts. They can be further improved
towards a specific task by fine-tuning on a specialized dataset. However,
fine-tuning usually makes the model narrowly specialized on this dataset with
reduced general in-context learning performances, which is undesirable whenever
the fine-tuned model needs to handle additional tasks where no fine-tuning data
is available. In this work, we first demonstrate that fine-tuning on a single
task indeed decreases LLMs' general in-context learning performance. We
discover one important cause of such forgetting, format specialization, where
the model overfits to the format of the fine-tuned task. We further show that
format specialization happens at the very beginning of fine-tuning. To solve
this problem, we propose Prompt Tuning with MOdel Tuning (ProMoT), a simple yet
effective two-stage fine-tuning framework that reduces format specialization
and improves generalization. ProMoT offloads task-specific format learning into
additional and removable parameters by first doing prompt tuning and then
fine-tuning the model itself with this soft prompt attached. With experiments
on several fine-tuning tasks and 8 in-context evaluation tasks, we show that
ProMoT achieves comparable performance on fine-tuned tasks to standard
fine-tuning, but with much less loss of in-context learning performances across
a board range of out-of-domain evaluation tasks. More importantly, ProMoT can
even enhance generalization on in-context learning tasks that are semantically
related to the fine-tuned task, e.g. ProMoT on En-Fr translation significantly
improves performance on other language pairs, and ProMoT on NLI improves
performance on summarization. Experiments also show that ProMoT can improve the
generalization performance of multi-task training.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLMs)は、プロンプト付きタスクの多様なセットに適用可能な汎用的な問題解決手法である。
特別なデータセットを微調整することで、特定のタスクに向けてさらに改善することができる。
しかし、ファインチューニングは通常、このデータセットに限定して、一般的なインコンテキスト学習性能を低下させ、微調整されたモデルが、微調整されたデータが利用できないような追加のタスクを処理する必要がある場合、望ましくないようなモデルを、このデータセットに限定する。
本稿では,1つのタスクの微調整がllmsの一般的なインコンテキスト学習性能を実際に低下させることを示す。
モデルが微調整タスクの形式に過度に適合する,そのような忘れ,形式特化の1つの重要な原因を見出す。
さらに、ファインチューニングの開始時にフォーマットの特殊化が発生することを示す。
この問題を解決するために,フォーマットの特殊化を減らし,一般化を改善するシンプルな2段階ファインチューニングフレームワークであるModel Tuning(ProMoT)を用いたPrompt Tuningを提案する。
ProMoTは、タスク固有のフォーマット学習を、まずプロンプトチューニングを行い、次にこのソフトプロンプトアタッチメントでモデル自体を微調整することで、追加的で取り外し可能なパラメータにオフロードする。
いくつかの微調整タスクと8つのインコンテキスト評価タスクの実験により、ProMoTは通常の微調整タスクに匹敵する性能を達成できるが、ドメイン外評価タスクのボード内での文脈内学習性能の損失ははるかに少ない。
さらに重要なことは、En-Fr翻訳上のProMoTは他の言語ペアのパフォーマンスを大幅に改善し、NLI上のProMoTは要約におけるパフォーマンスを向上する。
実験では、promotがマルチタスクトレーニングの一般化性能を向上させることも示されている。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - TAIA: Large Language Models are Out-of-Distribution Data Learners [30.57872423927015]
効果的な推論時間介入手法を提案する:全てのパラメータを訓練するが、注意のみで推論する(trainallInfAttn)。
trainallInfAttnは、ほとんどのシナリオで完全に調整されたモデルとベースモデルの両方と比較して、優れた改善を実現している。
trainallInfAttnのデータのミスマッチに対する高い耐性は、jailbreakのチューニングに耐性を持ち、一般的なデータを使った特別なタスクを強化する。
論文 参考訳(メタデータ) (2024-05-30T15:57:19Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views [28.081794908107604]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Preventing Catastrophic Forgetting in Continual Learning of New Natural
Language Tasks [17.879087904904935]
マルチタスク学習(MTL)は、自然言語処理において、1つのモデルで複数の関連するタスクを学習するための標準技術として広く受け入れられている。
通常、システムは時間とともに進化するので、既存のMTLモデルに新しいタスクを追加するには、通常、すべてのタスクをスクラッチから再トレーニングする必要があります。
本稿では、n+1タスクを解くための新しいタスクに、既に訓練済みのnタスクに関するモデルの知識を蒸留することにより、MTLモデルの能力を漸進的に拡張し、新しいタスクを時間とともに解決する問題にアプローチする。
論文 参考訳(メタデータ) (2023-02-22T00:18:25Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。