論文の概要: Do Models Really Learn to Follow Instructions? An Empirical Study of
Instruction Tuning
- arxiv url: http://arxiv.org/abs/2305.11383v2
- Date: Thu, 25 May 2023 21:07:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 19:46:08.384351
- Title: Do Models Really Learn to Follow Instructions? An Empirical Study of
Instruction Tuning
- Title(参考訳): モデルは本当に指示に従うことを学ぶのか?
命令調律に関する経験的研究
- Authors: Po-Nien Kung and Nanyun Peng
- Abstract要約: 命令チューニング(IT)に関する最近の研究は、目に見えないタスクに対してゼロショットの一般化性で大きな成果を上げている。
我々は、モデルトレーニングと変更した命令と元の命令とを比較して、モデルがどのようにITのインストラクションを利用するかを分析する。
- 参考スコア(独自算出の注目度): 37.01833561948585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works on instruction tuning (IT) have achieved great performance with
zero-shot generalizability to unseen tasks. With additional context (e.g., task
definition, examples) provided to models for fine-tuning, they achieved much
higher performance than untuned models. Despite impressive performance gains,
what models learn from IT remains understudied. In this work, we analyze how
models utilize instructions during IT by comparing model training with altered
vs. original instructions. Specifically, we create simplified task definitions
by removing all semantic components and only leaving the output space
information, and delusive examples that contain incorrect input-output mapping.
Our experiments show that models trained on simplified task definition or
delusive examples can achieve comparable performance to the ones trained on the
original instructions and examples. Furthermore, we introduce a random baseline
to perform zeroshot classification tasks, and find it achieves similar
performance (42.6% exact-match) as IT does (43% exact-match) in low resource
setting, while both methods outperform naive T5 significantly (30% per
exact-match). Our analysis provides evidence that the impressive performance
gain of current IT models can come from picking up superficial patterns, such
as learning the output format and guessing. Our study highlights the urgent
need for more reliable IT methods and evaluation.
- Abstract(参考訳): 命令チューニング(IT)に関する最近の研究は、目に見えないタスクに対してゼロショットの一般化性で大きな成果を上げている。
微調整のためのモデルに追加のコンテキスト(例えばタスク定義、例)を提供することで、未調整モデルよりもはるかに高いパフォーマンスを実現した。
優れたパフォーマンス向上にもかかわらず、モデルがITから学んだことはまだ検討されていない。
本研究は、モデルトレーニングと修正命令の比較により、モデルがIT中にどのようにインストラクションを利用するかを分析する。
具体的には、すべてのセマンティックコンポーネントを削除し、出力空間情報のみを残すことで、単純化されたタスク定義を作成する。
私たちの実験では、単純化されたタスク定義やごまかしの例で訓練されたモデルが、元の命令や例で訓練されたモデルと同等の性能を達成できることを示しました。
さらに,ゼロショット分類タスクを行うためのランダムベースラインを導入し,低リソース設定では類似の性能(42.6%の完全一致)を達成し(43%の完全一致),どちらの手法もnaive t5を有意に上回っている(完全一致の30%)。
我々の分析は、現在のITモデルの顕著なパフォーマンス向上が、出力フォーマットの学習や推測といった表面的なパターンを拾い上げることによってもたらされることを示す。
本研究は,より信頼性の高いIT手法と評価の必要性を強調した。
関連論文リスト
- VQA Training Sets are Self-play Environments for Generating Few-shot Pools [2.556825820539693]
本稿では,タスクメトリクスを報酬として計算環境を構築するために,既存のトレーニングセットを直接利用できる手法を提案する。
提案手法は、ゼロショットプロンプトから始まり、トレーニングセット上のタスクメトリックを最大化する少数ショット例を選択することにより、反復的にそれらを洗練する。
我々の実験では、GeminiがScreenAIのようなより小型で特殊なモデルを使って、トレーニングセットのパフォーマンスを反復的に改善する方法を実証している。
論文 参考訳(メタデータ) (2024-05-30T07:38:58Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Instruction Tuned Models are Quick Learners [20.771930945083994]
そこで本研究では,各種タスクにおける指導調律モデルのサンプル効率について述べる。
STL設定では、下流列車データの25%を備えた指導調律モデルが下流タスクのSOTA性能を上回っている。
MTL設定では、下流のトレーニングデータの6%しか訓練されていない指導調律モデルがSOTAを達成する一方で、100%のトレーニングデータを使用することで3.69%の改善が達成される。
論文 参考訳(メタデータ) (2023-05-17T22:30:01Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Assessing Out-of-Domain Language Model Performance from Few Examples [38.245449474937914]
ドメイン外性能(OOD)を数ショットで予測するタスクに対処する。
数ショットの例でモデル精度をみると、このタスクのパフォーマンスをベンチマークする。
帰属に基づく要因がOODの相対モデルの性能のランク付けに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:45:26Z) - How Many Data Samples is an Additional Instruction Worth? [20.66688303609522]
最近導入された命令パラダイムは、自然言語で新しいタスクを定義することによって、NLPリソースを活用する非専門家ユーザーに権限を与える。
この結果から,タスク間で平均200個のデータサンプルに付加的な命令を適用できることが示唆された。
論文 参考訳(メタデータ) (2022-03-17T08:30:30Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。