論文の概要: Re-examining learning linear functions in context
- arxiv url: http://arxiv.org/abs/2411.11465v3
- Date: Tue, 24 Dec 2024 09:03:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:53:27.253409
- Title: Re-examining learning linear functions in context
- Title(参考訳): 文脈における学習線形関数の再検討
- Authors: Omar Naim, Guilhem Fouilhé, Nicholas Asher,
- Abstract要約: In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。
合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。
本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
- 参考スコア(独自算出の注目度): 1.8843687952462742
- License:
- Abstract: In-context learning (ICL) has emerged as a powerful paradigm for easily adapting Large Language Models (LLMs) to various tasks. However, our understanding of how ICL works remains limited. We explore a simple model of ICL in a controlled setup with synthetic training data to investigate ICL of univariate linear functions. We experiment with a range of GPT-2-like transformer models trained from scratch. Our findings challenge the prevailing narrative that transformers adopt algorithmic approaches like linear regression to learn a linear function in-context. These models fail to generalize beyond their training distribution, highlighting fundamental limitations in their capacity to infer abstract task structures. Our experiments lead us to propose a mathematically precise hypothesis of what the model might be learning.
- Abstract(参考訳): In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。
しかし、ICLの動作に関する私たちの理解は限定的です。
我々は、単変量線形関数のICLを調べるために、合成トレーニングデータを用いた制御されたセットアップにおけるICLの単純なモデルについて検討する。
我々は,スクラッチから学習したGPT-2様変圧器モデルについて実験を行った。
本研究は,線形回帰のようなアルゴリズム的手法を用いてコンテキスト内で線形関数を学習するという,トランスフォーマーの一般的な物語に挑戦するものである。
これらのモデルは、トレーニング分布を超えて一般化することができず、抽象的なタスク構造を推論する能力の基本的な制限を強調している。
実験の結果,モデルが何を学習しているのかという数学的に正確な仮説が提案された。
関連論文リスト
- In-Context Learning of Polynomial Kernel Regression in Transformers with GLU Layers [19.606993863000906]
トランスフォーマーに基づくモデルは、インコンテキスト学習(ICL)において顕著な能力を示した
近年の研究では、勾配降下推定器を実装することで線形変換器がICLをどのように実行できるかについての知見が得られている。
我々は,LSAとGLUのようなフィードフォワード層を組み合わせる機構について検討し,このモデルがカーネル回帰の勾配降下の一段階を実行することを示す。
論文 参考訳(メタデータ) (2025-01-30T07:41:20Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。