論文の概要: Re-examining learning linear functions in context
- arxiv url: http://arxiv.org/abs/2411.11465v3
- Date: Tue, 24 Dec 2024 09:03:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 16:57:55.821778
- Title: Re-examining learning linear functions in context
- Title(参考訳): 文脈における学習線形関数の再検討
- Authors: Omar Naim, Guilhem Fouilhé, Nicholas Asher,
- Abstract要約: In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。
合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。
本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
- 参考スコア(独自算出の注目度): 1.8843687952462742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) has emerged as a powerful paradigm for easily adapting Large Language Models (LLMs) to various tasks. However, our understanding of how ICL works remains limited. We explore a simple model of ICL in a controlled setup with synthetic training data to investigate ICL of univariate linear functions. We experiment with a range of GPT-2-like transformer models trained from scratch. Our findings challenge the prevailing narrative that transformers adopt algorithmic approaches like linear regression to learn a linear function in-context. These models fail to generalize beyond their training distribution, highlighting fundamental limitations in their capacity to infer abstract task structures. Our experiments lead us to propose a mathematically precise hypothesis of what the model might be learning.
- Abstract(参考訳): In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。
しかし、ICLの動作に関する私たちの理解は限定的です。
我々は、単変量線形関数のICLを調べるために、合成トレーニングデータを用いた制御されたセットアップにおけるICLの単純なモデルについて検討する。
我々は,スクラッチから学習したGPT-2様変圧器モデルについて実験を行った。
本研究は,線形回帰のようなアルゴリズム的手法を用いてコンテキスト内で線形関数を学習するという,トランスフォーマーの一般的な物語に挑戦するものである。
これらのモデルは、トレーニング分布を超えて一般化することができず、抽象的なタスク構造を推論する能力の基本的な制限を強調している。
実験の結果,モデルが何を学習しているのかという数学的に正確な仮説が提案された。
関連論文リスト
- Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す
我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文 参考訳(メタデータ) (2025-04-17T13:05:33Z) - In-Context Learning of Polynomial Kernel Regression in Transformers with GLU Layers [19.606993863000906]
トランスフォーマーに基づくモデルは、インコンテキスト学習(ICL)において顕著な能力を示した
近年の研究では、勾配降下推定器を実装することで線形変換器がICLをどのように実行できるかについての知見が得られている。
我々は,LSAとGLUのようなフィードフォワード層を組み合わせる機構について検討し,このモデルがカーネル回帰の勾配降下の一段階を実行することを示す。
論文 参考訳(メタデータ) (2025-01-30T07:41:20Z) - ICL-TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
私たちは、経験的に強いアプローチを原則化されたフレームワークに統合することで、このギャップを埋めます。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - Examining Changes in Internal Representations of Continual Learning Models Through Tensor Decomposition [5.01338577379149]
連続学習(CL)は、逐次学習にまたがる過去の知識の統合を目的としたいくつかの手法の開発を加速させた。
CLモデルのための表現に基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T07:52:44Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Joint Problems in Learning Multiple Dynamical Systems [8.405361894357359]
時系列のクラスタリングはよく研究されている問題であり、代謝物濃度から得られる代謝の定量的にパーソナライズされたモデルから、量子情報理論における状態判別まで幅広い応用がある。
我々は,一組のトラジェクトリと複数のパーツを与えられた場合,各パーツのトラジェクトリと線形力学系(LDS)モデルを共同で分割し,全てのモデルにおける最大誤差を最小化するために検討する。
本稿では,グローバル収束法とEMを,有望な計算結果とともに提示する。
論文 参考訳(メタデータ) (2023-11-03T18:16:00Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - A Competitive Learning Approach for Specialized Models: A Solution for
Complex Physical Systems with Distinct Functional Regimes [0.0]
本稿では,物理システムのデータ駆動モデルを得るための新たな競合学習手法を提案する。
提案手法の背景にある基本的な考え方は、データに基づいて同時にトレーニングされたモデルの集合に対して、動的損失関数を使用することである。
論文 参考訳(メタデータ) (2023-07-19T23:29:40Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Multi-model Ensemble Learning Method for Human Expression Recognition [31.76775306959038]
本研究では,大量の実生活データを収集するアンサンブル学習法に基づく手法を提案する。
ABAW2022 ChallengeのAffWild2データセット上で多くの実験を行い、本ソリューションの有効性を実証した。
論文 参考訳(メタデータ) (2022-03-28T03:15:06Z) - Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。
連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文 参考訳(メタデータ) (2021-03-12T04:54:31Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - FLAT: Few-Shot Learning via Autoencoding Transformation Regularizers [67.46036826589467]
本稿では,データ例のラベルを使わずに,変換の分布によって引き起こされる特徴表現の変化を学習することで,新たな正規化機構を提案する。
エンコードされた特徴レベルで変換強化されたバリエーションを検査することで、ベースカテゴリへのオーバーフィットのリスクを最小限に抑えることができる。
実験結果から,文学における現在の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2019-12-29T15:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。