論文の概要: Scaling In-Context Demonstrations with Structured Attention
- arxiv url: http://arxiv.org/abs/2307.02690v1
- Date: Wed, 5 Jul 2023 23:26:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 15:44:01.624291
- Title: Scaling In-Context Demonstrations with Structured Attention
- Title(参考訳): 構造化された注意によるコンテキスト内デモのスケーリング
- Authors: Tianle Cai, Kaixuan Huang, Jason D. Lee, Mengdi Wang
- Abstract要約: 我々は、文脈内学習のためのより優れたアーキテクチャ設計を提案する。
In-Context Learningのための構造化アテンションは、構造化アテンションメカニズムによって完全なアテンションを置き換える。
SAICLは、最大3.4倍の推論速度で、フルアテンションよりも同等または優れた性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 75.41845145597875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent surge of large language models (LLMs) highlights their ability to
perform in-context learning, i.e., "learning" to perform a task from a few
demonstrations in the context without any parameter updates. However, their
capabilities of in-context learning are limited by the model architecture: 1)
the use of demonstrations is constrained by a maximum sentence length due to
positional embeddings; 2) the quadratic complexity of attention hinders users
from using more demonstrations efficiently; 3) LLMs are shown to be sensitive
to the order of the demonstrations. In this work, we tackle these challenges by
proposing a better architectural design for in-context learning. We propose
SAICL (Structured Attention for In-Context Learning), which replaces the
full-attention by a structured attention mechanism designed for in-context
learning, and removes unnecessary dependencies between individual
demonstrations, while making the model invariant to the permutation of
demonstrations. We evaluate SAICL in a meta-training framework and show that
SAICL achieves comparable or better performance than full attention while
obtaining up to 3.4x inference speed-up. SAICL also consistently outperforms a
strong Fusion-in-Decoder (FiD) baseline which processes each demonstration
independently. Finally, thanks to its linear nature, we demonstrate that SAICL
can easily scale to hundreds of demonstrations with continuous performance
gains with scaling.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)の急増は、コンテキスト内学習、すなわち"学習"をパラメータを更新せずにコンテキスト内のいくつかのデモからタスクを実行する能力を強調している。
しかし、コンテキスト内学習の能力はモデルアーキテクチャによって制限される。
1) デモンストレーションの使用は,位置埋め込みによる最大文長によって制限される。
2 注意の二次的複雑さは、より効率的な実演の使用を妨げる。
3) LLMは実験の順序に敏感であることが示されている。
本研究では、文脈内学習のためのより良いアーキテクチャ設計を提案することで、これらの課題に取り組む。
本研究では,SAICL(Structured Attention for In-Context Learning)を提案する。SAICL(Structured Attention for In-Context Learning)は,コンテキスト内学習用に設計された構造化された注意機構によって,実演間の不要な依存関係を排除し,モデルを実演の置換に不変にする。
我々は,SAICLをメタトレーニングフレームワークで評価し,SAICLが最大3.4倍の推論速度を得ながら,注目度以上の性能を達成することを示す。
SAICLはまた、それぞれのデモを独立して処理する強力なFusion-in-Decoder(FiD)ベースラインを一貫して上回っている。
最後に、線形性により、SAICLは、スケーリングによって連続的なパフォーマンス向上を伴う数百のデモに簡単にスケールできることを示します。
関連論文リスト
- DEEP-ICL: Definition-Enriched Experts for Language Model In-Context
Learning [61.85871109164743]
大規模言語モデル(LLM)におけるパラメータの多さは、コンテキスト内学習(ICL)の能力を促進すると長い間考えられてきた。
ICL のための新しいタスク定義拡張 ExPert Ensembling Method である DEEP-ICL を紹介する。
ICLの改善はモデルのサイズに直接依存するのではなく、基本的にはタスク定義やタスク誘導学習の理解に起因している、と我々は主張する。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - Are Human-generated Demonstrations Necessary for In-context Learning? [22.783456038837794]
SEC(Self-contemplation prompting Strategy)は、人為的なデモンストレーションのないパラダイムである。
算術推論、常識推論、マルチタスク言語理解、コード生成ベンチマークにおける大規模な実験は、SECがゼロショット学習戦略を著しく上回っていることを示している。
論文 参考訳(メタデータ) (2023-09-26T05:10:08Z) - Dr.ICL: Demonstration-Retrieved In-context Learning [29.142262267850704]
インコンテキスト学習(ICL)は、LLMを使用するための強力なパラダイムとして、数発のデモでタスクを実行するために大きな言語モデルを教える。
最近の研究では、利用可能なデモのプールからの入力に対して意味論的に類似したデモを取得することで、より良いパフォーマンスが得られることが示唆されている。
この研究は、BM25のような単純な単語オーバーラップ類似度対策でさえ、ランダムに選択された実演よりも優れていることを示すことで、検索ベースのICLアプローチの適用性を拡大する。
論文 参考訳(メタデータ) (2023-05-23T14:55:25Z) - What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文 参考訳(メタデータ) (2023-05-16T18:05:19Z) - What Makes Good In-context Demonstrations for Code Intelligence Tasks
with LLMs? [60.668318972782295]
大規模言語モデルは、文脈内学習(ICL)の能力を示している。
ICLはタスク命令といくつかの例をデモとして使用し、次に予測を行うために言語モデルにデモを入力します。
コードに関連するタスクに対して,優れたデモを構築する方法について,体系的に検討することが重要である。
論文 参考訳(メタデータ) (2023-04-15T15:13:58Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Self-Generated In-Context Learning: Leveraging Auto-regressive Language
Models as a Demonstration Generator [22.532627423361177]
自己生成型インコンテキスト学習(SG-ICL)は、PLM自体からインコンテキスト学習のためのデモを生成する。
我々は、SG-ICLがゼロショット学習を著しく上回り、一般的に約0.6金のトレーニングサンプルの価値があることを示した。
論文 参考訳(メタデータ) (2022-06-16T10:52:13Z) - Rethinking the Role of Demonstrations: What Makes In-Context Learning
Work? [112.72413411257662]
大規模言語モデル(LM)は、いくつかのインプットラベルペア(デモ)を条件付けして、新しいインプットの予測を行うことで、インコンテキストで学習することができる。
実演のラベルをランダムに置き換えることは、パフォーマンスをほとんど損なうものではない。
デモの他の側面が、エンドタスクのパフォーマンスの主要な要因であることに気付きました。
論文 参考訳(メタデータ) (2022-02-25T17:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。