論文の概要: Rethinking the Role of Scale for In-Context Learning: An
Interpretability-based Case Study at 66 Billion Scale
- arxiv url: http://arxiv.org/abs/2212.09095v2
- Date: Wed, 16 Aug 2023 09:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 17:43:41.268110
- Title: Rethinking the Role of Scale for In-Context Learning: An
Interpretability-based Case Study at 66 Billion Scale
- Title(参考訳): インコンテキスト学習におけるスケールの役割再考--660億スケールでの解釈可能性に基づくケーススタディ
- Authors: Hritik Bansal, Karthik Gopalakrishnan, Saket Dingliwal, Sravan
Bodapati, Katrin Kirchhoff, Dan Roth
- Abstract要約: 本研究では,大規模言語モデルによるタスクの文脈内学習性能が,その基盤となるコンポーネントに均一に分散していないという仮説を考察する。
タスク間のインコンテキスト学習とインコンテキストサンプルの数に対して,アテンションヘッドのセット(重要でない)にかなりの重複がみられた。
- 参考スコア(独自算出の注目度): 60.336655143884904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models have been shown to perform better with an increase in scale
on a wide variety of tasks via the in-context learning paradigm. In this paper,
we investigate the hypothesis that the ability of a large language model to
in-context learn-perform a task is not uniformly spread across all of its
underlying components. Using a 66 billion parameter language model (OPT-66B)
across a diverse set of 14 downstream tasks, we find this is indeed the case:
$\sim$70% of attention heads and $\sim$20% of feed forward networks can be
removed with minimal decline in task performance. We find substantial overlap
in the set of attention heads (un)important for in-context learning across
tasks and number of in-context examples. We also address our hypothesis through
a task-agnostic lens, finding that a small set of attention heads in OPT-66B
score highly on their ability to perform primitive induction operations
associated with in-context learning, namely, prefix matching and copying. These
induction heads overlap with task-specific important heads, reinforcing
arguments by Olsson et al. (arXiv:2209.11895) regarding induction head
generality to more sophisticated behaviors associated with in-context learning.
Overall, our study provides several insights that indicate large language
models may be under-trained for in-context learning and opens up questions on
how to pre-train language models to more effectively perform in-context
learning.
- Abstract(参考訳): 言語モデルは、コンテキスト内学習パラダイムを通じて、幅広いタスクのスケールを拡大することで、よりよいパフォーマンスを示すことが示されている。
本稿では,大規模言語モデルがタスクをテキスト内で学習する能力が,その基盤となるすべてのコンポーネントに均一に分散していないという仮説を考察する。
6600億のパラメータ言語モデル(OPT-66B)を14のダウンストリームタスクの多様なセットで使用することにより、実際にこれが事実であることが分かる:$\sim$70%の注目ヘッドと$\sim$20%のフィードフォワードネットワークは、タスクパフォーマンスの最小限の低下で除去できる。
タスク間のインコンテキスト学習やインコンテキストの例の数において,注意点の集合が著しく重複していることが判明した。
また,op-66bにおける注意ヘッドの少なさは,文脈内学習,すなわちプレフィックスマッチングとコピーに関連する原始的帰納的操作を行う能力に非常に依存していることを見出した。
これらの誘導ヘッドはタスク固有の重要なヘッドと重なり、Olsson et al. (arXiv:2209.11895) によるインコンテキスト学習に関連するより洗練された行動への誘導ヘッドの一般化に関する議論を補強する。
全体として、本研究では、大規模言語モデルが文脈内学習の訓練を受けていないことを示し、文脈内学習をより効果的に行うために、言語モデルを事前学習する方法に関する疑問を提起する。
関連論文リスト
- Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - In-context Learning in Presence of Spurious Correlations [8.055478206164105]
本研究では,突発的特徴を含む分類課題に対して,文脈内学習者を訓練する可能性について検討する。
従来の文脈内学習者の訓練手法は、刺激的な特徴に影響を受けやすいことが判明した。
与えられた分類タスクに対して,そのような学習者を訓練するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:26:36Z) - Teaching Smaller Language Models To Generalise To Unseen Compositional
Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。
検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-02T05:00:12Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - The Learnability of In-Context Learning [16.182561312622315]
そこで本研究では,文脈内学習のための初歩的なPACベースのフレームワークを提案する。
本フレームワークは,事前学習に適合する初期事前学習フェーズを含む。
文脈内学習は、タスクを学習することよりも、タスクを特定することにあることを示す。
論文 参考訳(メタデータ) (2023-03-14T13:28:39Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Coarse-to-Fine: Hierarchical Multi-task Learning for Natural Language
Understanding [51.31622274823167]
本稿では,各タスクの下位レベルを全タスクに共有し,中間レベルを異なるグループに分割し,上位レベルを各タスクに割り当てる,粗大なパラダイムを持つ階層型フレームワークを提案する。
これにより、すべてのタスクから基本言語特性を学習し、関連するタスクのパフォーマンスを高め、無関係なタスクから負の影響を減らすことができる。
論文 参考訳(メタデータ) (2022-08-19T02:46:20Z) - Intermediate-Task Transfer Learning with Pretrained Models for Natural
Language Understanding: When and Why Does It Work? [44.88358841370665]
特定の目標タスクに対して、中間タスクトレーニングが有益である時期と理由についてはあまり理解されていない。
110の中間目標タスクの組み合わせで事前学習したRoBERTaモデルを大規模に検討する。
高いレベルの推論と推論能力を必要とする中間タスクが最善である傾向が観察された。
論文 参考訳(メタデータ) (2020-05-01T21:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。