論文の概要: Preserving In-Context Learning ability in Large Language Model
Fine-tuning
- arxiv url: http://arxiv.org/abs/2211.00635v1
- Date: Tue, 1 Nov 2022 17:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:07:36.714435
- Title: Preserving In-Context Learning ability in Large Language Model
Fine-tuning
- Title(参考訳): 大規模言語モデルファインチューニングにおける文脈内学習能力の維持
- Authors: Yihan Wang, Si Si, Daliang Li, Michal Lukasik, Felix Yu, Cho-Jui
Hsieh, Inderjit S Dhillon, Sanjiv Kumar
- Abstract要約: In-context abilities of pretrained large language model (LLMs) の保存を目的としたMOdel Tuning (ProMoT) を用いた Prompt Tuning を提案する。
ProMoTは、バニラの微調整と比較すると、微調整タスクでも同様のパフォーマンスを実現するが、コンテキスト内学習性能は大幅に低下する。
ProMoTは、NLIバイナリ分類タスクの微調整など、異なるフォーマットのタスクに対して顕著な一般化能力を示す。
- 参考スコア(独自算出の注目度): 103.41129518796515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained large language models (LLMs) are strong in-context learners that
are able to perform few-shot learning without changing model parameters.
However, as we show, fine-tuning an LLM on any specific task generally destroys
its in-context ability. We discover an important cause of this loss, format
specialization, where the model overfits to the format of the fine-tuned task
and is unable to output anything beyond this format. We further show that
format specialization happens at the beginning of fine-tuning. To solve this
problem, we propose Prompt Tuning with MOdel Tuning (ProMoT), a simple yet
effective two-stage fine-tuning framework that preserves in-context abilities
of the pretrained model. ProMoT first trains a soft prompt for the fine-tuning
target task, and then fine-tunes the model itself with this soft prompt
attached. ProMoT offloads task-specific formats into the soft prompt that can
be removed when doing other in-context tasks. We fine-tune mT5 XXL with ProMoT
on natural language inference (NLI) and English-French translation and evaluate
the in-context abilities of the resulting models on 8 different NLP tasks.
ProMoT achieves similar performance on the fine-tuned tasks compared with
vanilla fine-tuning, but with much less reduction of in-context learning
performances across the board. More importantly, ProMoT shows remarkable
generalization ability on tasks that have different formats, e.g. fine-tuning
on a NLI binary classification task improves the model's in-context ability to
do summarization (+0.53 Rouge-2 score compared to the pretrained model), making
ProMoT a promising method to build general purpose capabilities such as
grounding and reasoning into LLMs with small but high quality datasets. When
extended to sequential or multi-task training, ProMoT can achieve even better
out-of-domain generalization performance.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)は、モデルパラメータを変更することなく、少数のショット学習が可能なコンテキスト内学習者である。
しかし、私たちが示すように、特定のタスクに対するLLMの微調整は、一般的にコンテキスト内の能力を損なう。
この損失の重要な原因は、モデルが微調整されたタスクの形式に過度に適合し、このフォーマット以上の出力ができないフォーマットの特殊化である。
さらに、ファインチューニングの開始時にフォーマットの特殊化が発生することを示す。
この問題を解決するために,事前学習モデルのコンテキスト内能力を保持するシンプルな2段階ファインチューニングフレームワークであるModel Tuning (ProMoT) を用いた Prompt Tuning を提案する。
ProMoTはまず、微調整対象タスクのソフトプロンプトを訓練し、その後、このソフトプロンプトを付けたモデル自体を微調整する。
ProMoTはタスク固有のフォーマットをソフトプロンプトにオフロードする。
自然言語推論(NLI)と英仏翻訳にProMoTを用いたmT5 XXLを微調整し、8つの異なるNLPタスクで得られたモデルの文脈内能力を評価する。
ProMoTは、バニラの微調整に比べて微調整されたタスクで同様のパフォーマンスを実現するが、ボード全体のコンテキスト内学習性能は大幅に低下する。
より重要なことに、promotは、nliバイナリ分類タスクの微調整など、異なるフォーマットのタスクにおいて顕著な一般化能力を示しており、モデルのコンテキスト内における要約能力(事前訓練されたモデルと比較して+0.53 rouge-2スコア)を改善し、promotは、小さくて高品質なデータセットでllmにグラウンド化や推論といった汎用的な機能を構築する有望な方法である。
シーケンシャルあるいはマルチタスクトレーニングに拡張すると、promotはドメイン外の一般化パフォーマンスをさらに向上させることができる。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - TAIA: Large Language Models are Out-of-Distribution Data Learners [30.57872423927015]
効果的な推論時間介入手法を提案する:全てのパラメータを訓練するが、注意のみで推論する(trainallInfAttn)。
trainallInfAttnは、ほとんどのシナリオで完全に調整されたモデルとベースモデルの両方と比較して、優れた改善を実現している。
trainallInfAttnのデータのミスマッチに対する高い耐性は、jailbreakのチューニングに耐性を持ち、一般的なデータを使った特別なタスクを強化する。
論文 参考訳(メタデータ) (2024-05-30T15:57:19Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views [28.081794908107604]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Preventing Catastrophic Forgetting in Continual Learning of New Natural
Language Tasks [17.879087904904935]
マルチタスク学習(MTL)は、自然言語処理において、1つのモデルで複数の関連するタスクを学習するための標準技術として広く受け入れられている。
通常、システムは時間とともに進化するので、既存のMTLモデルに新しいタスクを追加するには、通常、すべてのタスクをスクラッチから再トレーニングする必要があります。
本稿では、n+1タスクを解くための新しいタスクに、既に訓練済みのnタスクに関するモデルの知識を蒸留することにより、MTLモデルの能力を漸進的に拡張し、新しいタスクを時間とともに解決する問題にアプローチする。
論文 参考訳(メタデータ) (2023-02-22T00:18:25Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。