論文の概要: In-Context Learning in Linear vs. Quadratic Attention Models: An Empirical Study on Regression Tasks
- arxiv url: http://arxiv.org/abs/2602.17171v1
- Date: Thu, 19 Feb 2026 08:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.8123
- Title: In-Context Learning in Linear vs. Quadratic Attention Models: An Empirical Study on Regression Tasks
- Title(参考訳): 線形対二次注意モデルにおける文脈内学習 : 回帰課題に関する実証的研究
- Authors: Ayush Goel, Arjun Kohli, Sarvagya Somvanshi,
- Abstract要約: 最近の研究は、線形回帰のような単純な関数クラス上で、変換器と線形注意モデルが文脈内学習(ICL)を行うことを示した。
我々は,これらの2つの注意機構がGargらの正準線形回帰タスクにおいて,ICLの挙動にどのように異なるかを実験的に検討した。
- 参考スコア(独自算出の注目度): 0.5543867614999908
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work has demonstrated that transformers and linear attention models can perform in-context learning (ICL) on simple function classes, such as linear regression. In this paper, we empirically study how these two attention mechanisms differ in their ICL behavior on the canonical linear-regression task of Garg et al. We evaluate learning quality (MSE), convergence, and generalization behavior of each architecture. We also analyze how increasing model depth affects ICL performance. Our results illustrate both the similarities and limitations of linear attention relative to quadratic attention in this setting.
- Abstract(参考訳): 最近の研究は、線形回帰のような単純な関数クラス上で、変換器と線形注意モデルが文脈内学習(ICL)を行うことを示した。
本稿では,これらの2つの注意機構が,Gargらの正準線形回帰タスクにおいて,それぞれのアーキテクチャの学習品質(MSE),収束,一般化行動にどう影響するかを実証的に検討する。
また,モデル深度の増加がICLの性能に与える影響も分析した。
本研究は,2次的注意に対する線形注意の類似性と限界について述べる。
関連論文リスト
- Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [50.53703102032562]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。
この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文 参考訳(メタデータ) (2025-05-16T08:50:42Z) - Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す
我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文 参考訳(メタデータ) (2025-04-17T13:05:33Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Training Dynamics of In-Context Learning in Linear Attention [6.663503238373593]
In-context linear regression のために訓練されたマルチヘッド線形自己アテンションの勾配勾配勾配ダイナミクスについて検討した。
線形アテンションの勾配降下訓練中にICLの能力がどのように進化するかを理論的に記述する。
論文 参考訳(メタデータ) (2025-01-27T18:03:00Z) - Decoding In-Context Learning: Neuroscience-inspired Analysis of
Representations in Large Language Models [5.062236259068678]
In-context Learning (ICL) による大規模言語モデル(LLM)の性能向上について検討する。
本稿では,Llama-270BとVicuna 13Bのパラメータ化探索と,関連する情報と無関係情報に対する注意度の測定方法を提案する。
ICL後の行動改善とLLM層間の埋め込みと注意重みの変化との間に有意な相関が認められた。
論文 参考訳(メタデータ) (2023-09-30T09:01:35Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。