論文の概要: A Mechanism for Sample-Efficient In-Context Learning for Sparse
Retrieval Tasks
- arxiv url: http://arxiv.org/abs/2305.17040v1
- Date: Fri, 26 May 2023 15:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 13:47:31.336065
- Title: A Mechanism for Sample-Efficient In-Context Learning for Sparse
Retrieval Tasks
- Title(参考訳): スパース検索タスクにおけるサンプル効率の良いインコンテキスト学習のメカニズム
- Authors: Jacob Abernethy, Alekh Agarwal, Teodor V. Marinov, Manfred K. Warmuth
- Abstract要約: 事前学習プロセスと下流タスクに対して,適切な仮定でトランスフォーマーモデルがICLを実行可能であることを示す。
本手法は, トランス機構を用いて実装可能であることを確認した。
- 参考スコア(独自算出の注目度): 29.764014766305174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the phenomenon of \textit{in-context learning} (ICL) exhibited by
large language models, where they can adapt to a new learning task, given a
handful of labeled examples, without any explicit parameter optimization. Our
goal is to explain how a pre-trained transformer model is able to perform ICL
under reasonable assumptions on the pre-training process and the downstream
tasks. We posit a mechanism whereby a transformer can achieve the following:
(a) receive an i.i.d. sequence of examples which have been converted into a
prompt using potentially-ambiguous delimiters, (b) correctly segment the prompt
into examples and labels, (c) infer from the data a \textit{sparse linear
regressor} hypothesis, and finally (d) apply this hypothesis on the given test
example and return a predicted label. We establish that this entire procedure
is implementable using the transformer mechanism, and we give sample complexity
guarantees for this learning framework. Our empirical findings validate the
challenge of segmentation, and we show a correspondence between our posited
mechanisms and observed attention maps for step (c).
- Abstract(参考訳): 本稿では,大規模言語モデルによって提示される \textit{in-context learning} (icl) 現象について検討する。
本研究の目的は,事前学習したトランスフォーマーモデルが,事前学習プロセスと下流タスクの合理的な仮定の下でどのようにiclを実行できるかを説明することである。
変換器が次のようなことを実現できる機構を仮定する。
(a)潜在的な曖昧なデリミタを用いてプロンプトに変換された例のi.d.シーケンスを受け取る。
(b)プロンプトをサンプルやラベルに正しく分割する。
(c)データから \textit{sparse linear regressor}仮説を推測し、最後に
(d)この仮説を与えられたテスト例に適用し、予測ラベルを返します。
我々は、この手順全体がトランスフォーマー機構を用いて実装可能であることを証明し、この学習フレームワークにサンプル複雑さの保証を与える。
実験により, セグメンテーションの課題を実証し, 提案機構と観察された注意図との対応を示す。
(c)。
関連論文リスト
- 'One size doesn't fit all': Learning how many Examples to use for
In-Context Learning for Improved Text Classification [18.167541508658417]
In-context Learning (ICL) は、少数のラベル付きデータインスタンスをプロンプトの例として使用する。
本稿では,データに代表されるサンプル数を動的に適応させる手法を提案する。
実験の結果,AICL法はいくつかの標準データセットにおけるテキスト分類タスクの改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-03-11T03:28:13Z) - In-Context Learning for MIMO Equalization Using Transformer-Based
Sequence Models [44.161789477821536]
大規模な事前学習シーケンスモデルには、コンテキスト内学習(ICL)を実行する能力がある
ICLでは、新しい入力に関する決定は、入力の直接マッピングと与えられたタスクからのいくつかの例を通して行われる。
我々は,変圧器をベースとしたICLのしきい値挙動を数値計算により示す。
論文 参考訳(メタデータ) (2023-11-10T15:09:04Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - A CTC Alignment-based Non-autoregressive Transformer for End-to-end
Automatic Speech Recognition [26.79184118279807]
CTCアライメントに基づく一段非自己回帰変換器(CASS-NAT)をエンドツーエンドASRに適用する。
自己回帰変換器(AT)への単語埋め込みは、エンコーダ出力から抽出されたトークンレベルの音響埋め込み(TAE)で代用される。
我々は,CASS-NAT が様々な ASR タスクにおいて AT に近い WER を持ち,24 倍の推論速度を提供することを発見した。
論文 参考訳(メタデータ) (2023-04-15T18:34:29Z) - An Analysis of Attention via the Lens of Exchangeability and Latent
Variable Models [85.71582578730383]
入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。
我々は入力トークンの十分かつ最小限の表現の存在を確立する。
所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
論文 参考訳(メタデータ) (2022-12-30T17:59:01Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。