論文の概要: OPT-IML: Scaling Language Model Instruction Meta Learning through the
Lens of Generalization
- arxiv url: http://arxiv.org/abs/2212.12017v1
- Date: Thu, 22 Dec 2022 19:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:35:36.812239
- Title: OPT-IML: Scaling Language Model Instruction Meta Learning through the
Lens of Generalization
- Title(参考訳): OPT-IML:一般化レンズによる言語モデル学習のスケーリング
- Authors: Srinivasan Iyer and Xi Victoria Lin and Ramakanth Pasunuru and Todor
Mihaylov and Daniel Simig and Ping Yu and Kurt Shuster and Tianlu Wang and
Qing Liu and Punit Singh Koura and Xian Li and Brian O'Horo and Gabriel
Pereyra and Jeff Wang and Christopher Dewan and Asli Celikyilmaz and Luke
Zettlemoyer and Ves Stoyanov
- Abstract要約: モデルサイズとベンチマークサイズの両方をスケールする際のダウンストリームタスク性能に対する命令チューニング決定の影響について述べる。
我々は、OPT-30Bに適用された命令調整決定に関する知見を提示し、さらにこれらの知見を活用して、OPTの命令調整版であるOPT-IML 30Bと175Bを訓練する。
- 参考スコア(独自算出の注目度): 101.37439352091612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that fine-tuning large pre-trained language models on a
collection of tasks described via instructions, a.k.a. instruction-tuning,
improves their zero and few-shot generalization to unseen tasks. However, there
is a limited understanding of the performance trade-offs of different decisions
made during the instruction-tuning process. These decisions include the scale
and diversity of the instruction-tuning benchmark, different task sampling
strategies, fine-tuning with and without demonstrations, training using
specialized datasets for reasoning and dialogue, and finally, the fine-tuning
objectives themselves. In this paper, we characterize the effect of
instruction-tuning decisions on downstream task performance when scaling both
model and benchmark sizes. To this end, we create OPT-IML Bench: a large
benchmark for Instruction Meta-Learning (IML) of 2000 NLP tasks consolidated
into task categories from 8 existing benchmarks, and prepare an evaluation
framework to measure three types of model generalizations: to tasks from fully
held-out categories, to held-out tasks from seen categories, and to held-out
instances from seen tasks. Through the lens of this framework, we first present
insights about instruction-tuning decisions as applied to OPT-30B and further
exploit these insights to train OPT-IML 30B and 175B, which are
instruction-tuned versions of OPT. OPT-IML demonstrates all three
generalization abilities at both scales on four different evaluation benchmarks
with diverse tasks and input formats -- PromptSource, FLAN,
Super-NaturalInstructions, and UnifiedSKG. Not only does it significantly
outperform OPT on all benchmarks but is also highly competitive with existing
models fine-tuned on each specific benchmark. We release OPT-IML at both
scales, together with the OPT-IML Bench evaluation framework.
- Abstract(参考訳): 近年の研究では、命令チューニング(インストラクションチューニング)によって記述されたタスクの集合上で、微調整された大規模な事前学習言語モデルが、ゼロおよび少数ショットの一般化を未確認タスクに改善することを示した。
しかし、命令チューニングプロセス中に異なる決定を下すパフォーマンスのトレードオフについては、限定的な理解がある。
これらの決定には、命令チューニングベンチマークのスケールと多様性、異なるタスクサンプリング戦略、デモの有無による微調整、推論と対話のための特殊なデータセットを用いたトレーニング、そして最後に、微調整目標そのものが含まれる。
本稿では,モデルサイズとベンチマークサイズの両方をスケールする場合に,命令チューニングがダウンストリームタスク性能に与える影響を特徴付ける。
そこで我々は,既存の8つのベンチマークからタスクカテゴリに集約された2000のNLPタスクのインストラクションメタラーニング(IML)のための大規模ベンチマークであるOPT-IML Benchを作成し,完全に保留されたカテゴリからタスクへ,見られたカテゴリから保留されたタスクへ,そして、見たタスクから保留するインスタンスへ,という3種類のモデル一般化を測定するための評価フレームワークを準備した。
このフレームワークのレンズを通して、まず、OPT-30Bに適用された命令調整決定に関する知見を提示し、さらにこれらの知見を利用して、命令調整版であるOPT-IML 30Bと175Bをトレーニングする。
opt-imlは、プロンプトソース、flan、super-naturalinstruction、unifiedskgの4つの異なる評価ベンチマークで、両方のスケールで3つの一般化能力を示す。
すべてのベンチマークでOPTを大きく上回るだけでなく、各ベンチマークで微調整された既存のモデルと非常に競争力がある。
我々は,OPT-IML Bench評価フレームワークとともに,OPT-IMLを両スケールでリリースする。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics
Capabilities [40.55743949223173]
Pragmatics Understanding Benchmark (PUB) は、4つの実用的現象における14のタスクからなるデータセットである。
PUBには合計28kのデータポイントが含まれており、そのうち6.1kは私たちによって作成され、残りは既存のデータセットから適応されている。
本研究は,命令追従とチャットの微調整により,より小さな言語モデルの実用性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-13T13:46:14Z) - Balancing Specialized and General Skills in LLMs: The Impact of Modern
Tuning and Data Strategy [27.365319494865165]
論文では、提案するフレームワークの設計、データ収集、分析技術、および結果について詳述する。
LLMを専門的な文脈に効果的に適応するための実践的な洞察を企業や研究者に提供することを目的としている。
論文 参考訳(メタデータ) (2023-10-07T23:29:00Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Benchmarking Generalization via In-Context Instructions on 1,600+
Language Tasks [95.06087720086133]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。
ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。
このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文 参考訳(メタデータ) (2022-04-16T03:12:30Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - Revisiting Unsupervised Meta-Learning: Amplifying or Compensating for
the Characteristics of Few-Shot Tasks [30.893785366366078]
我々は,限られたデータを用いて視覚認識システムを構築する,少数ショット画像分類への実践的アプローチを開発した。
基本クラスセットラベルは不要であり、識別的埋め込みは教師なしの方法でメタ学習される可能性がある。
数ショットの学習ベンチマークの実験では、従来の手法よりも4~10%のパフォーマンス差で、アプローチが優れていることが確認された。
論文 参考訳(メタデータ) (2020-11-30T10:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。