論文の概要: Instruction Tuned Models are Quick Learners
- arxiv url: http://arxiv.org/abs/2306.05539v1
- Date: Wed, 17 May 2023 22:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 13:10:40.888263
- Title: Instruction Tuned Models are Quick Learners
- Title(参考訳): 教師チューニングモデルがクイックラーニング
- Authors: Himanshu Gupta and Saurabh Arjun Sawant and Swaroop Mishra and Mutsumi
Nakamura and Arindam Mitra and Santosh Mashetty and Chitta Baral
- Abstract要約: そこで本研究では,各種タスクにおける指導調律モデルのサンプル効率について述べる。
STL設定では、下流列車データの25%を備えた指導調律モデルが下流タスクのSOTA性能を上回っている。
MTL設定では、下流のトレーニングデータの6%しか訓練されていない指導調律モデルがSOTAを達成する一方で、100%のトレーニングデータを使用することで3.69%の改善が達成される。
- 参考スコア(独自算出の注目度): 20.771930945083994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning of language models has demonstrated the ability to enhance
model generalization to unseen tasks via in-context learning using a few
examples. However, typical supervised learning still requires a plethora of
downstream training data for finetuning. Often in real-world situations, there
is a scarcity of data available for finetuning, falling somewhere between few
shot inference and fully supervised finetuning. In this work, we demonstrate
the sample efficiency of instruction tuned models over various tasks by
estimating the minimal downstream training data required by them to perform
transfer learning and match the performance of state-of-the-art (SOTA)
supervised models. We conduct experiments on 119 tasks from Super Natural
Instructions (SuperNI) in both the single task learning (STL) and multi task
learning (MTL) settings. Our findings reveal that, in the STL setting,
instruction tuned models equipped with 25% of the downstream train data surpass
the SOTA performance on the downstream tasks. In the MTL setting, an
instruction tuned model trained on only 6% of downstream training data achieve
SOTA, while using 100% of the training data results in a 3.69% points
improvement (ROUGE-L 74.68) over the previous SOTA. We conduct an analysis on
T5 vs Tk-Instruct by developing several baselines to demonstrate that
instruction tuning aids in increasing both sample efficiency and transfer
learning. Additionally, we observe a consistent ~4% performance increase in
both settings when pre-finetuning is performed with instructions. Finally, we
conduct a categorical study and find that contrary to previous results, tasks
in the question rewriting and title generation categories suffer from
instruction tuning.
- Abstract(参考訳): 言語モデルのインストラクションチューニングは、いくつかの例を用いて、コンテキスト内学習を通じて、未知のタスクにモデルを一般化する能力を示す。
しかし、一般的な教師付き学習では、微調整のためのダウンストリームトレーニングデータが必要となる。
現実の状況では、微調整用のデータが不足し、ほとんどショット推論と完全に監督された微調整の間にある。
そこで,本研究では,伝達学習とSOTA(State-of-the-art)教師付きモデルの性能の一致に要する最小ダウンストリームトレーニングデータを推定することにより,各種タスクに対する調律モデルのサンプル効率を示す。
我々は,STL(Single Task Learning)とMTL(Multi Task Learning)の両方の設定において,Super Natural Instructions (SuperNI)の119タスクについて実験を行った。
その結果, STL設定では, 下流列車データの25%が, 下流作業におけるSOTA性能を上回った指導調律モデルであることが判明した。
mtl設定では、ダウンストリームトレーニングデータのわずか6%でトレーニングされた命令チューニングモデルがsotaを達成する一方、トレーニングデータの100%を使用すると、前回のstaよりも3.69%改善(ルージュl74.68)する。
本稿では,t5 対 tk-instruct の分析を行い,サンプル効率と転送学習の両面において命令チューニングが助けとなることを示すために,いくつかのベースラインを開発した。
さらに,前処理を命令で行うと,両方の設定で一貫した約4%のパフォーマンス向上が観察される。
最後に、カテゴリー研究を行い、従来の結果とは対照的に、質問書き直しとタイトル生成カテゴリのタスクが命令チューニングに苦しむことを発見した。
関連論文リスト
- An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Do Models Really Learn to Follow Instructions? An Empirical Study of
Instruction Tuning [37.01833561948585]
命令チューニング(IT)に関する最近の研究は、目に見えないタスクに対してゼロショットの一般化性で大きな成果を上げている。
我々は、モデルトレーニングと変更した命令と元の命令とを比較して、モデルがどのようにITのインストラクションを利用するかを分析する。
論文 参考訳(メタデータ) (2023-05-19T02:00:47Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - Maybe Only 0.5% Data is Needed: A Preliminary Exploration of Low
Training Data Instruction Tuning [13.558918552284906]
本稿では,大規模言語モデル(LLM)の指導訓練に使用するデータを削減することに着目し,トレーニングコストの低減とデータ効率の向上を図る。
その結果、タスク固有のモデルは、オリジナルのデータセットの0.5%未満でトレーニングでき、完全なタスク関連のデータでトレーニングされたモデルよりも2%パフォーマンスが向上したことが示唆された。
論文 参考訳(メタデータ) (2023-05-16T07:52:57Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。