論文の概要: Understanding In-Context Learning on Structured Manifolds: Bridging Attention to Kernel Methods
- arxiv url: http://arxiv.org/abs/2506.10959v1
- Date: Thu, 12 Jun 2025 17:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.893875
- Title: Understanding In-Context Learning on Structured Manifolds: Bridging Attention to Kernel Methods
- Title(参考訳): 構造的多様体における文脈学習の理解:カーネル法へのブリッジアテンション
- Authors: Zhaiming Shen, Alexander Hsu, Rongjie Lai, Wenjing Liao,
- Abstract要約: In-context Learning (ICL) は自然言語と視覚領域において顕著な成功を収めた。
本研究では、多様体上のH"古い関数の回帰に対するICCの理論的研究を開始する。
本研究は, ICLにおける幾何学の役割に関する基礎的な知見と, 非線形モデルのICLを研究するためのノベルティクスツールを提供する。
- 参考スコア(独自算出の注目度): 48.038668788625465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While in-context learning (ICL) has achieved remarkable success in natural language and vision domains, its theoretical understanding--particularly in the context of structured geometric data--remains unexplored. In this work, we initiate a theoretical study of ICL for regression of H\"older functions on manifolds. By establishing a novel connection between the attention mechanism and classical kernel methods, we derive generalization error bounds in terms of the prompt length and the number of training tasks. When a sufficient number of training tasks are observed, transformers give rise to the minimax regression rate of H\"older functions on manifolds, which scales exponentially with the intrinsic dimension of the manifold, rather than the ambient space dimension. Our result also characterizes how the generalization error scales with the number of training tasks, shedding light on the complexity of transformers as in-context algorithm learners. Our findings provide foundational insights into the role of geometry in ICL and novels tools to study ICL of nonlinear models.
- Abstract(参考訳): In-context Learning (ICL) は自然言語や視覚領域において顕著な成功を収めてきたが、その理論的理解は、特に構造化された幾何学的データの文脈において-探索されていないままである。
本研究では、多様体上の H\ 古い関数の回帰に対する ICL の理論的研究を開始する。
注意機構と古典的カーネル手法の新たな接続を確立することにより、即時長とトレーニングタスク数の観点から一般化誤差を導出する。
十分な数の訓練タスクが観測されたとき、変換器は多様体上のH\"古い関数のミニマックス回帰率を生じさせ、これは周囲空間次元ではなく多様体の内在次元と指数関数的にスケールする。
また,アルゴリズム学習者としてのトランスフォーマーの複雑さを隠蔽し,トレーニングタスク数に応じて一般化誤差がどのようにスケールするかを特徴付ける。
本研究は, ICLにおける幾何学の役割に関する基礎的な知見と, 非線形モデルのICLを研究するためのノベルティクスツールを提供する。
関連論文リスト
- Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [48.67380502157004]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。
この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文 参考訳(メタデータ) (2025-05-16T08:50:42Z) - Manifold Learning with Normalizing Flows: Towards Regularity, Expressivity and Iso-Riemannian Geometry [8.020732438595905]
この研究は、マルチモーダル設定で発生する歪みやモデリングエラーに対処することに焦点を当てている。
本稿では,合成データと実データの両方を用いた数値実験において,提案手法の相乗効果を示す。
論文 参考訳(メタデータ) (2025-05-12T21:44:42Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Differentiation and Specialization of Attention Heads via the Refined Local Learning Coefficient [0.49478969093606673]
特異学習理論に基づくモデル複雑性の尺度である局所学習係数 (LLC) の洗練された変種を導入する。
本研究では,トランスフォーマー言語モデルにおける内部構造の開発について検討する。
論文 参考訳(メタデータ) (2024-10-03T20:51:02Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - On Computational Modeling of Sleep-Wake Cycle [5.234742752529437]
神経科学は、睡眠と覚醒を脳のデフォルトおよび摂動モードとして扱う。
脳は環境入力なしで神経活動を自己組織していると仮定されている。
本稿では,学習と記憶のための睡眠覚醒サイクルの新しい計算モデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T13:06:23Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。