論文の概要: Benchmarking Generalization via In-Context Instructions on 1,600+
Language Tasks
- arxiv url: http://arxiv.org/abs/2204.07705v1
- Date: Sat, 16 Apr 2022 03:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 11:38:23.326487
- Title: Benchmarking Generalization via In-Context Instructions on 1,600+
Language Tasks
- Title(参考訳): 1,600以上の言語タスクのインコンテキスト命令によるベンチマーク一般化
- Authors: Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi,
Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran,
Atharva Naik, David Stap, Eshaan Pathak, Giannis Karamanolakis, Haizhi Gary
Lai, Ishan Purohit, Ishani Mondal, Jacob Anderson, Kirby Kuznia, Krima Doshi,
Maitreya Patel, Kuntal Kumar Pal, Mehrad Moradshahi, Mihir Parmar, Mirali
Purohit, Neeraj Varshney, Phani Rohitha Kaza, Pulkit Verma, Ravsehaj Singh
Puri, Rushang Karia, Shailaja Keyur Sampat, Savan Doshi, Siddhartha Mishra,
Sujan Reddy, Sumanta Patro, Tanay Dixit, Xudong Shen, Chitta Baral, Yejin
Choi, Hannaneh Hajishirzi, Noah A. Smith, Daniel Khashabi
- Abstract要約: Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。
ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。
このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
- 参考スコア(独自算出の注目度): 95.06087720086133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we measure the generalization of models to a variety of unseen tasks
when provided with their language instructions? To facilitate progress in this
goal, we introduce Natural-Instructions v2, a collection of 1,600+ diverse
language tasks and their expert written instructions. More importantly, the
benchmark covers 70+ distinct task types, such as tagging, in-filling, and
rewriting. This benchmark is collected with contributions of NLP practitioners
in the community and through an iterative peer review process to ensure their
quality. This benchmark enables large-scale evaluation of cross-task
generalization of the models -- training on a subset of tasks and evaluating on
the remaining unseen ones. For instance, we are able to rigorously quantify
generalization as a function of various scaling parameters, such as the number
of observed tasks, the number of instances, and model sizes. As a by-product of
these experiments. we introduce Tk-Instruct, an encoder-decoder Transformer
that is trained to follow a variety of in-context instructions (plain language
task definitions or k-shot examples) which outperforms existing larger models
on our benchmark. We hope this benchmark facilitates future progress toward
more general-purpose language understanding models.
- Abstract(参考訳): 言語命令が与えられたとき、モデルの一般化を様々な目に見えないタスクにどのように測定するか。
この目標の進展を促進するために,1,600以上の多種多様な言語タスクのコレクションであるNatural-Instructions v2を導入する。
さらに重要なのは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプをカバーすることだ。
このベンチマークは、コミュニティ内のNLP実践者のコントリビューションと、彼らの品質を保証するための反復的なピアレビュープロセスによって収集される。
このベンチマークは、タスクのサブセットをトレーニングし、残りの未確認タスクを評価する、モデルのクロスタスク一般化の大規模な評価を可能にする。
例えば、観測されたタスクの数、インスタンス数、モデルサイズなど、さまざまなスケーリングパラメータの関数としての一般化を厳密に定量化することが可能です。
これらの実験の副産物として。
我々は、様々なコンテキスト内命令(プレーン言語タスク定義やkショット例)に従うように訓練されたエンコーダ-デコーダトランスフォーマであるtk-instructを導入する。
このベンチマークにより、より汎用的な言語理解モデルへの今後の進歩が期待できる。
関連論文リスト
- SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Task Ambiguity in Humans and Language Models [7.033374427612259]
本稿では,あいまいな分類タスクのベンチマークであるAmbiBenchを提案する。
AmbiBench上での人間とモデルの評価は、意図したタスクがどの程度うまく認識されているかを確認することで行う。
本研究では,大規模なフィードバックトレーニングを伴わずに学習した言語モデルの精度を劇的に向上させる方法について述べる。
論文 参考訳(メタデータ) (2022-12-20T18:35:33Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better
Language Models for Code Understanding [3.98345038769576]
フォーラムの投稿で、質問に対する最良の回答を予測するなどのタスクに基づいて、コード理解を評価するためのベンチマークのセットを導出します。
我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2021-09-15T17:42:44Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。