論文の概要: A Mechanism for Sample-Efficient In-Context Learning for Sparse
Retrieval Tasks
- arxiv url: http://arxiv.org/abs/2305.17040v1
- Date: Fri, 26 May 2023 15:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 13:47:31.336065
- Title: A Mechanism for Sample-Efficient In-Context Learning for Sparse
Retrieval Tasks
- Title(参考訳): スパース検索タスクにおけるサンプル効率の良いインコンテキスト学習のメカニズム
- Authors: Jacob Abernethy, Alekh Agarwal, Teodor V. Marinov, Manfred K. Warmuth
- Abstract要約: 事前学習プロセスと下流タスクに対して,適切な仮定でトランスフォーマーモデルがICLを実行可能であることを示す。
本手法は, トランス機構を用いて実装可能であることを確認した。
- 参考スコア(独自算出の注目度): 29.764014766305174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the phenomenon of \textit{in-context learning} (ICL) exhibited by
large language models, where they can adapt to a new learning task, given a
handful of labeled examples, without any explicit parameter optimization. Our
goal is to explain how a pre-trained transformer model is able to perform ICL
under reasonable assumptions on the pre-training process and the downstream
tasks. We posit a mechanism whereby a transformer can achieve the following:
(a) receive an i.i.d. sequence of examples which have been converted into a
prompt using potentially-ambiguous delimiters, (b) correctly segment the prompt
into examples and labels, (c) infer from the data a \textit{sparse linear
regressor} hypothesis, and finally (d) apply this hypothesis on the given test
example and return a predicted label. We establish that this entire procedure
is implementable using the transformer mechanism, and we give sample complexity
guarantees for this learning framework. Our empirical findings validate the
challenge of segmentation, and we show a correspondence between our posited
mechanisms and observed attention maps for step (c).
- Abstract(参考訳): 本稿では,大規模言語モデルによって提示される \textit{in-context learning} (icl) 現象について検討する。
本研究の目的は,事前学習したトランスフォーマーモデルが,事前学習プロセスと下流タスクの合理的な仮定の下でどのようにiclを実行できるかを説明することである。
変換器が次のようなことを実現できる機構を仮定する。
(a)潜在的な曖昧なデリミタを用いてプロンプトに変換された例のi.d.シーケンスを受け取る。
(b)プロンプトをサンプルやラベルに正しく分割する。
(c)データから \textit{sparse linear regressor}仮説を推測し、最後に
(d)この仮説を与えられたテスト例に適用し、予測ラベルを返します。
我々は、この手順全体がトランスフォーマー機構を用いて実装可能であることを証明し、この学習フレームワークにサンプル複雑さの保証を与える。
実験により, セグメンテーションの課題を実証し, 提案機構と観察された注意図との対応を示す。
(c)。
関連論文リスト
- Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - "In-Context Learning" or: How I learned to stop worrying and love "Applied Information Retrieval" [9.264121218481133]
In-context Learning (ICL)は、自然言語処理(NLP)の新しいパラダイムとして進化してきた。
ICLは概念的には$k$-NNのような非パラメトリックアプローチに似ている。
トレーニングセットから取得したICLの同様の例は、IRのコレクションから取得したドキュメントのセットに関連している。
論文 参考訳(メタデータ) (2024-05-02T09:25:24Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - A CTC Alignment-based Non-autoregressive Transformer for End-to-end
Automatic Speech Recognition [26.79184118279807]
CTCアライメントに基づく一段非自己回帰変換器(CASS-NAT)をエンドツーエンドASRに適用する。
自己回帰変換器(AT)への単語埋め込みは、エンコーダ出力から抽出されたトークンレベルの音響埋め込み(TAE)で代用される。
我々は,CASS-NAT が様々な ASR タスクにおいて AT に近い WER を持ち,24 倍の推論速度を提供することを発見した。
論文 参考訳(メタデータ) (2023-04-15T18:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。