論文の概要: Positional Information Matters for Invariant In-Context Learning: A Case
Study of Simple Function Classes
- arxiv url: http://arxiv.org/abs/2311.18194v1
- Date: Thu, 30 Nov 2023 02:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:15:44.704082
- Title: Positional Information Matters for Invariant In-Context Learning: A Case
Study of Simple Function Classes
- Title(参考訳): invariant in-context learningにおける位置情報問題--単純関数クラスを事例として
- Authors: Yongqiang Chen, Binghui Xie, Kaiwen Zhou, Bo Han, Yatao Bian, James
Cheng
- Abstract要約: インコンテキストラーニング(In-context Learning, ICL)とは、新しいクエリ入力に対する応答を生成するために、いくつかのインコンテキストデモでモデルに条件を付ける能力である。
LLMの印象的なICL能力にもかかわらず、LSMのICLは入力デモに敏感であり、短い文脈長に限定されている。
- 参考スコア(独自算出の注目度): 39.08988313527199
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In-context learning (ICL) refers to the ability of a model to condition on a
few in-context demonstrations (input-output examples of the underlying task) to
generate the answer for a new query input, without updating parameters. Despite
the impressive ICL ability of LLMs, it has also been found that ICL in LLMs is
sensitive to input demonstrations and limited to short context lengths. To
understand the limitations and principles for successful ICL, we conduct an
investigation with ICL linear regression of transformers. We characterize
several Out-of-Distribution (OOD) cases for ICL inspired by realistic LLM ICL
failures and compare transformers with DeepSet, a simple yet powerful
architecture for ICL. Surprisingly, DeepSet outperforms transformers across a
variety of distribution shifts, implying that preserving permutation invariance
symmetry to input demonstrations is crucial for OOD ICL. The phenomenon
specifies a fundamental requirement by ICL, which we termed as ICL invariance.
Nevertheless, the positional encodings in LLMs will break ICL invariance. To
this end, we further evaluate transformers with identical positional encodings
and find preserving ICL invariance in transformers achieves state-of-the-art
performance across various ICL distribution shifts
- Abstract(参考訳): in-context learning (icl) は、パラメータを更新せずに、新しいクエリ入力に対して応答を生成する、いくつかのin-contextデモ(基本タスクの入力出力例)を条件付けするモデルの能力を指す。
LLMの印象的なICL能力にもかかわらず、LLMのICLは入力デモに敏感であり、短い文脈長に限定されていることも判明した。
ICLの成功の限界と原則を理解するため,我々は変圧器のICL線形回帰について検討する。
我々は,現実のllm icl障害にインスパイアされたiclのout-of-distribution (ood) ケースを特徴付け,iclの単純かつ強力なアーキテクチャであるdeepsetと比較した。
驚くべきことに、deepsetは様々な分布シフトのトランスフォーマーよりも優れており、ood iclには置換不変対称性の保持が不可欠であることを示している。
この現象は、我々が icl 不変性と呼ぶ icl の基本的な要件を規定している。
それでも、LSMにおける位置エンコーディングはICL不変性を損なう。
この目的のために、同じ位置符号化を持つ変圧器を更に評価し、変圧器のICL不変性を様々なICL分布シフトで実現した。
関連論文リスト
- Exact Conversion of In-Context Learning to Model Weights in Linearized-Attention Transformers [30.145669421100965]
In-Context Learningは、大きな言語モデルの強力な創発的特性である。
線形化変圧器ネットワークでは, バイアス項を含めることで, ICLを明示的かつ永続的にすることができることを示す。
我々のアルゴリズム(ICLCA)は、正確な変換を安価に行うことができる。
論文 参考訳(メタデータ) (2024-06-05T01:47:40Z) - Implicit In-context Learning [37.0562059811099]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。
Inlicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。
I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-05-23T14:57:52Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - Batch-ICL: Effective, Efficient, and Order-Agnostic In-Context Learning [27.729189318779603]
Batch-ICLは、文脈内学習のための効率的、効率的、秩序に依存しない推論アルゴリズムである。
Batch-ICL は ICL の例のほとんどを一貫して上回っていることを示す。
また,メタ最適化の「エポック」を複数備えた新しいBatch-ICLを開発した。
論文 参考訳(メタデータ) (2024-01-12T09:31:17Z) - The Transient Nature of Emergent In-Context Learning in Transformers [28.256651019346023]
トランスフォーマーネットワークは、明示的にトレーニングされていないにもかかわらず、コンテキスト内学習(ICL)の驚くべき能力を示すことができる。
トランスフォーマートレーニング中のICLの出現は、しばしば過渡的であることを示す。
ICLが最初に出現し、その後消滅し、トレーニング損失が減少している間にIWLに道を譲る。
論文 参考訳(メタデータ) (2023-11-14T18:03:20Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。