論文の概要: FIAT: Fusing learning paradigms with Instruction-Accelerated Tuning
- arxiv url: http://arxiv.org/abs/2309.04663v1
- Date: Sat, 9 Sep 2023 02:43:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 17:08:10.714938
- Title: FIAT: Fusing learning paradigms with Instruction-Accelerated Tuning
- Title(参考訳): FIAT: 指導促進チューニングによる学習パラダイムの融合
- Authors: Xinyi Wang, John Wieting, Jonathan H. Clark
- Abstract要約: 我々は、ICLと微調整のパラダイムを融合させるFIATと呼ばれる新しい学習パラダイムを提案する。
我々は、多言語タスクにおけるFIATの有効性を評価し、FIATがICLよりも優れており、100~10,000のトレーニング例からスケールでの微調整が優れていることを観察した。
- 参考スコア(独自算出の注目度): 54.48012868892613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning paradigms for large language models (LLMs) currently tend to fall
within either in-context learning (ICL) or full fine-tuning. Each of these
comes with their own trade-offs based on available data, model size, compute
cost, ease-of-use, and final quality with neither solution performing well
across-the-board. In this article, we first describe ICL and fine-tuning
paradigms in a way that highlights their natural connections. Based on these
connections, we propose a new learning paradigm called FIAT that fuses the best
of these paradigms together, enabling prompt-engineered instructions and
chain-of-thought reasoning with the very largest models while also using
similar methods to perform parameter updates on a modestly-sized LLM with
parameter-efficient tuning. We evaluate FIAT's effectiveness on a variety of
multilingual tasks and observe that FIAT performs better than both ICL and
fine-tuning at scales ranging from 100-10,000 training examples. We hope that
FIAT provides a practical way of harnessing the full potential of LLMs without
needing to make a hard choice between learning paradigms.
- Abstract(参考訳): 大規模言語モデル(LLM)の学習パラダイムは、現在、コンテキスト内学習(ICL)またはフル微調整のいずれかに該当する傾向にある。
これらのそれぞれには、利用可能なデータ、モデルサイズ、計算コスト、使いやすさ、最終的な品質に基づく独自のトレードオフがある。
本稿では、ICLと微調整のパラダイムを、それらの自然な関係を強調する形で最初に記述する。
これらの関係に基づいて,これらのパラダイムの長所を融合させるFIATという新たな学習パラダイムを提案し,非常に大きなモデルを用いた素早いエンジニアリング命令とチェーン・オブ・シント推論を実現するとともに,パラメータ効率の調整を伴う中小LLMのパラメータ更新に類似した手法を用いる。
本稿では,多言語タスクにおけるfiatの有効性を評価し,訓練例100~10,000例の尺度において,fiatがiclや微調整よりも優れた性能を示すことを確認した。
FIATは、学習パラダイム間の難しい選択をすることなく、LLMの潜在能力を最大限に活用する実用的な方法を提供することを願っている。
関連論文リスト
- Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Astraios: Parameter-Efficient Instruction Tuning Code Large Language
Models [21.17021844323919]
Astraiosは7つのチューニングメソッドと最大16億のパラメータの4つのモデルサイズを使用して、命令チューニングされた28のOctoCoderモデルのスイートである。
その結果、FFTは全スケールで最高のダウンストリーム性能を示し、PEFT法はモデルスケールに基づいてその有効性に大きな違いがあることがわかった。
論文 参考訳(メタデータ) (2024-01-01T15:30:19Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。