論文の概要: Analyzing limits for in-context learning
- arxiv url: http://arxiv.org/abs/2502.03503v2
- Date: Fri, 30 May 2025 13:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:33.751501
- Title: Analyzing limits for in-context learning
- Title(参考訳): 文脈内学習における限界の分析
- Authors: Omar Naim, Nicholas Asher,
- Abstract要約: インコンテキスト学習(ICL)は、基本的な振る舞いを明らかにするための制御された設定として関数正規化タスクに焦点を当て、スクラッチから訓練されたトランスフォーマーモデルである。
我々は、変圧器モデルが正規化(非線型)関数の未確認クラスを一般化し近似することができることを実証的に示すが、それらは特定の値を超える一般化はできない。
- 参考スコア(独自算出の注目度): 2.1178416840822027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We examine limits of in-context learning (ICL) in transformer models trained from scratch, focusing on function approximation tasks as a controlled setting to uncover fundamental behaviors. While we show empirically that transformer models can generalize, approximating unseen classes of polynomial (non linear) functions, they cannot generalize beyond certain values. We provide both empirical and mathematical arguments explaining that these limitations stem from architectural components, namely layer normalization and the attention scoring function, softmax. Together, our findings reveal structural constraints on ICL that are often masked in more complex NLP tasks but that need to be understood to improve robustness and interpretability in transformer-based models.
- Abstract(参考訳): 基本動作を明らかにするための制御条件として,関数近似タスクに着目し,スクラッチから学習したトランスフォーマーモデルにおける文脈内学習(ICL)の限界について検討する。
変圧器モデルが多項式(非線型)関数の見えないクラスを近似して一般化できることを実証的に示すが、それらは特定の値を超える一般化はできない。
これらの制限は, 層正規化とアテンションスコアリング関数であるソフトマックス(Softmax)に起因していると説明できる。
この結果から,より複雑な NLP タスクで隠蔽されることが多い ICL の構造的制約が明らかとなった。
関連論文リスト
- Re-examining learning linear functions in context [1.8843687952462742]
In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。
合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。
本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
論文 参考訳(メタデータ) (2024-11-18T10:58:46Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Learning to grok: Emergence of in-context learning and skill composition in modular arithmetic tasks [5.358878931933351]
モジュール型算術タスクの集合における文脈内学習とスキル構成の出現について検討する。
具体的には、線型モジュラ函数の有限集合 $z = a, x + b, y ;mathrmmod; p$ を mathbbZ_p2$ のベクトル $(a, b) でラベル付けする。
論文 参考訳(メタデータ) (2024-06-04T17:59:36Z) - Piecewise Polynomial Regression of Tame Functions via Integer Programming [2.2499166814992435]
我々は,tame関数,すべての共通活性化をもつ非平滑関数,混合整数プログラムの値関数,小分子の波動関数を考える。
論文 参考訳(メタデータ) (2023-11-22T17:37:42Z) - Understanding In-Context Learning in Transformers and LLMs by Learning
to Learn Discrete Functions [32.59746882017483]
本論文では,トランスフォーマーが一つのタスクを解くために2つの異なるアルゴリズムを実装することを学習できることを示す。
また,既存のLarge Language Models (LLMs) は,予測タスクにおいて最寄りのベースラインと競合することを示す。
論文 参考訳(メタデータ) (2023-10-04T17:57:33Z) - What Can Transformers Learn In-Context? A Case Study of Simple Function
Classes [67.06980111346245]
インコンテキスト学習(In-context learning)とは、インコンテキストの例からなるプロンプトシーケンスでモデルに条件を付ける能力である。
我々は,標準変換器をスクラッチから訓練して,線形関数の文脈内学習を行うことを示した。
また、タスク固有の学習アルゴリズムに適合または超越したパフォーマンスで、より複雑な関数クラスをコンテキスト内で学習できるようにトランスフォーマーを訓練できることも示している。
論文 参考訳(メタデータ) (2022-08-01T18:01:40Z) - Bilinear Classes: A Structural Framework for Provable Generalization in
RL [119.42509700822484]
Bilinear Classesは強化学習の一般化を可能にする新しい構造フレームワークである。
このフレームワークは、サンプルの複雑さが達成可能な、ほとんどすべての既存のモデルを取り込んでいる。
我々の主な成果は、双線形クラスのためのサンプル複雑性を持つRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-19T16:34:20Z) - Learning outside the Black-Box: The pursuit of interpretable models [78.32475359554395]
本稿では,任意の連続ブラックボックス関数の連続的大域的解釈を生成するアルゴリズムを提案する。
我々の解釈は、その芸術の以前の状態から飛躍的な進歩を表している。
論文 参考訳(メタデータ) (2020-11-17T12:39:44Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - From Sets to Multisets: Provable Variational Inference for Probabilistic
Integer Submodular Models [82.95892656532696]
サブモジュール関数は機械学習やデータマイニングにおいて広く研究されている。
本研究では,整数部分モジュラ函数に対する連続DR-部分モジュラ拡張を提案する。
整数部分モジュラー関数によって定義される新しい確率モデルを定式化する。
論文 参考訳(メタデータ) (2020-06-01T22:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。