論文の概要: Scaling In-Context Demonstrations with Structured Attention
- arxiv url: http://arxiv.org/abs/2307.02690v1
- Date: Wed, 5 Jul 2023 23:26:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 15:44:01.624291
- Title: Scaling In-Context Demonstrations with Structured Attention
- Title(参考訳): 構造化された注意によるコンテキスト内デモのスケーリング
- Authors: Tianle Cai, Kaixuan Huang, Jason D. Lee, Mengdi Wang
- Abstract要約: 我々は、文脈内学習のためのより優れたアーキテクチャ設計を提案する。
In-Context Learningのための構造化アテンションは、構造化アテンションメカニズムによって完全なアテンションを置き換える。
SAICLは、最大3.4倍の推論速度で、フルアテンションよりも同等または優れた性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 75.41845145597875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent surge of large language models (LLMs) highlights their ability to
perform in-context learning, i.e., "learning" to perform a task from a few
demonstrations in the context without any parameter updates. However, their
capabilities of in-context learning are limited by the model architecture: 1)
the use of demonstrations is constrained by a maximum sentence length due to
positional embeddings; 2) the quadratic complexity of attention hinders users
from using more demonstrations efficiently; 3) LLMs are shown to be sensitive
to the order of the demonstrations. In this work, we tackle these challenges by
proposing a better architectural design for in-context learning. We propose
SAICL (Structured Attention for In-Context Learning), which replaces the
full-attention by a structured attention mechanism designed for in-context
learning, and removes unnecessary dependencies between individual
demonstrations, while making the model invariant to the permutation of
demonstrations. We evaluate SAICL in a meta-training framework and show that
SAICL achieves comparable or better performance than full attention while
obtaining up to 3.4x inference speed-up. SAICL also consistently outperforms a
strong Fusion-in-Decoder (FiD) baseline which processes each demonstration
independently. Finally, thanks to its linear nature, we demonstrate that SAICL
can easily scale to hundreds of demonstrations with continuous performance
gains with scaling.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)の急増は、コンテキスト内学習、すなわち"学習"をパラメータを更新せずにコンテキスト内のいくつかのデモからタスクを実行する能力を強調している。
しかし、コンテキスト内学習の能力はモデルアーキテクチャによって制限される。
1) デモンストレーションの使用は,位置埋め込みによる最大文長によって制限される。
2 注意の二次的複雑さは、より効率的な実演の使用を妨げる。
3) LLMは実験の順序に敏感であることが示されている。
本研究では、文脈内学習のためのより良いアーキテクチャ設計を提案することで、これらの課題に取り組む。
本研究では,SAICL(Structured Attention for In-Context Learning)を提案する。SAICL(Structured Attention for In-Context Learning)は,コンテキスト内学習用に設計された構造化された注意機構によって,実演間の不要な依存関係を排除し,モデルを実演の置換に不変にする。
我々は,SAICLをメタトレーニングフレームワークで評価し,SAICLが最大3.4倍の推論速度を得ながら,注目度以上の性能を達成することを示す。
SAICLはまた、それぞれのデモを独立して処理する強力なFusion-in-Decoder(FiD)ベースラインを一貫して上回っている。
最後に、線形性により、SAICLは、スケーリングによって連続的なパフォーマンス向上を伴う数百のデモに簡単にスケールできることを示します。
関連論文リスト
- DemoShapley: Valuation of Demonstrations for In-Context Learning [20.26604061802236]
インコンテキスト学習(ICL)を利用した大規模言語モデル(LLM)は、タスク固有の微調整を必要とせずに、様々なタスク間で数ショットの学習を行う新しいベンチマークを設定した。
我々は、Data Shapleyの評価定理にインスパイアされたDemoShapleyを紹介する。
この結果から,DemoShapleyは精度と公平性の観点からモデル性能を向上するだけでなく,コンテキスト内デモとは異なる領域からのクエリを一般化することがわかった。
論文 参考訳(メタデータ) (2024-10-10T01:35:03Z) - Focused Large Language Models are Stable Many-Shot Learners [18.783939647966776]
In-Context Learning (ICL)により、大規模な言語モデル(LLM)がデモから学習することで、迅速なタスク適応を実現することができる。
重要でないコンテンツから注意を逸らすことを避けるために,自明なフィルタリングを行う訓練不要なFocusICLを提案する。
その結果,FocusICLはバニラICLよりも平均5.2%の性能向上を実現し,多くの実演に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-08-26T02:53:24Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Are Human-generated Demonstrations Necessary for In-context Learning? [22.783456038837794]
SEC(Self-contemplation prompting Strategy)は、人為的なデモンストレーションのないパラダイムである。
算術推論、常識推論、マルチタスク言語理解、コード生成ベンチマークにおける大規模な実験は、SECがゼロショット学習戦略を著しく上回っていることを示している。
論文 参考訳(メタデータ) (2023-09-26T05:10:08Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文 参考訳(メタデータ) (2023-05-16T18:05:19Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Rethinking the Role of Demonstrations: What Makes In-Context Learning
Work? [112.72413411257662]
大規模言語モデル(LM)は、いくつかのインプットラベルペア(デモ)を条件付けして、新しいインプットの予測を行うことで、インコンテキストで学習することができる。
実演のラベルをランダムに置き換えることは、パフォーマンスをほとんど損なうものではない。
デモの他の側面が、エンドタスクのパフォーマンスの主要な要因であることに気付きました。
論文 参考訳(メタデータ) (2022-02-25T17:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。