論文の概要: Can In-context Learning Really Generalize to Out-of-distribution Tasks?
- arxiv url: http://arxiv.org/abs/2410.09695v1
- Date: Sun, 13 Oct 2024 02:10:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 08:36:49.317561
- Title: Can In-context Learning Really Generalize to Out-of-distribution Tasks?
- Title(参考訳): インコンテクスト学習は本当にアウト・オブ・ディストリビューション・タスクに一般化できるのか?
- Authors: Qixun Wang, Yifei Wang, Yisen Wang, Xianghua Ying,
- Abstract要約: 本研究は,訓練中に遭遇したことのないアウト・オブ・ディストリビューション(OOD)課題に対する,イン・コンテクスト・ラーニング(ICL)のメカニズムについて検討した。
我々は、トランスフォーマーがICLを通してOODタスク機能を学ぶのに苦労していることを明らかにする。
- 参考スコア(独自算出の注目度): 36.11431280689549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we explore the mechanism of in-context learning (ICL) on out-of-distribution (OOD) tasks that were not encountered during training. To achieve this, we conduct synthetic experiments where the objective is to learn OOD mathematical functions through ICL using a GPT-2 model. We reveal that Transformers may struggle to learn OOD task functions through ICL. Specifically, ICL performance resembles implementing a function within the pretraining hypothesis space and optimizing it with gradient descent based on the in-context examples. Additionally, we investigate ICL's well-documented ability to learn unseen abstract labels in context. We demonstrate that such ability only manifests in the scenarios without distributional shifts and, therefore, may not serve as evidence of new-task-learning ability. Furthermore, we assess ICL's performance on OOD tasks when the model is pretrained on multiple tasks. Both empirical and theoretical analyses demonstrate the existence of the \textbf{low-test-error preference} of ICL, where it tends to implement the pretraining function that yields low test error in the testing context. We validate this through numerical experiments. This new theoretical result, combined with our empirical findings, elucidates the mechanism of ICL in addressing OOD tasks.
- Abstract(参考訳): 本研究は,トレーニング中に遭遇しなかったアウト・オブ・ディストリビューション(OOD)タスクに対する,イン・コンテクスト・ラーニング(ICL)のメカニズムについて検討する。
そこで我々は, GPT-2 モデルを用いて ICL を用いて OOD の数学的関数を学習することを目的とした合成実験を行った。
我々は、トランスフォーマーがICLを通してOODタスク機能を学ぶのに苦労していることを明らかにする。
特に、ICLのパフォーマンスは、事前学習された仮説空間内で関数を実装し、コンテキスト内の例に基づいて勾配降下を最適化するのに似ている。
さらに,ICLが理解できない抽象ラベルを文脈で学習する能力について検討した。
このような能力は分布シフトのないシナリオにのみ現れるため、新しいタスク学習能力の証拠にはならない。
さらに、モデルが複数のタスクで事前訓練された場合、OODタスク上でのICLの性能を評価する。
実証的および理論的解析は、ICLの \textbf{low-test-error preference} の存在を示し、テストコンテキストにおいて低いテストエラーをもたらす事前学習関数を実装する傾向がある。
数値実験により検証する。
この新たな理論的結果と経験的知見を組み合わせることで,OODタスクに対処するICLのメカニズムが解明される。
関連論文リスト
- Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - MILE: A Mutation Testing Framework of In-Context Learning Systems [5.419884861365132]
ICLシステムにおけるテストデータの品質と有効性を特徴付けるための突然変異試験フレームワークを提案する。
まず、ICLの実証に特化しているいくつかの突然変異演算子と、ICLテストセットに対応する突然変異スコアを提案する。
総合的な実験により、ICLテストスイートの信頼性と品質を評価する上で、我々のフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2024-09-07T13:51:42Z) - Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する
一般的な仮説の一つは、タスク選択によるICLの説明である。
もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文 参考訳(メタデータ) (2024-06-06T16:15:34Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - Dual Operating Modes of In-Context Learning [8.664657381613695]
In-context Learning (ICL)は、タスク学習とタスク検索という2つの操作モードを示す。
最近の理論的研究は、ICLを解析するための様々な数学的モデルについて研究している。
本稿では,ICLの二重動作モードを同時に説明できる確率モデルを提案する。
論文 参考訳(メタデータ) (2024-02-29T03:06:10Z) - In-Context Learning Functions with Varying Number of Minima [3.3268674937926224]
最小値の異なる関数を近似する新しいタスクを提案する。
ミニマの数が増加するとICL性能が低下することがわかった。
同時に、我々はICLが2層ニューラルネットワーク(2NN)モデルより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-21T11:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。