Fugu-MT 論文翻訳(概要): Understanding In-Context Learning on Structured Manifolds: Bridging Attention to Kernel Methods

論文の概要: Understanding In-Context Learning on Structured Manifolds: Bridging Attention to Kernel Methods

arxiv url: http://arxiv.org/abs/2506.10959v1
Date: Thu, 12 Jun 2025 17:56:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.893875
Title: Understanding In-Context Learning on Structured Manifolds: Bridging Attention to Kernel Methods
Title（参考訳）: 構造的多様体における文脈学習の理解:カーネル法へのブリッジアテンション
Authors: Zhaiming Shen, Alexander Hsu, Rongjie Lai, Wenjing Liao,
Abstract要約: In-context Learning (ICL) は自然言語と視覚領域において顕著な成功を収めた。本研究では、多様体上のH"古い関数の回帰に対するICCの理論的研究を開始する。本研究は, ICLにおける幾何学の役割に関する基礎的な知見と, 非線形モデルのICLを研究するためのノベルティクスツールを提供する。
参考スコア（独自算出の注目度）: 48.038668788625465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While in-context learning (ICL) has achieved remarkable success in natural language and vision domains, its theoretical understanding--particularly in the context of structured geometric data--remains unexplored. In this work, we initiate a theoretical study of ICL for regression of H\"older functions on manifolds. By establishing a novel connection between the attention mechanism and classical kernel methods, we derive generalization error bounds in terms of the prompt length and the number of training tasks. When a sufficient number of training tasks are observed, transformers give rise to the minimax regression rate of H\"older functions on manifolds, which scales exponentially with the intrinsic dimension of the manifold, rather than the ambient space dimension. Our result also characterizes how the generalization error scales with the number of training tasks, shedding light on the complexity of transformers as in-context algorithm learners. Our findings provide foundational insights into the role of geometry in ICL and novels tools to study ICL of nonlinear models.
Abstract（参考訳）: In-context Learning (ICL) は自然言語や視覚領域において顕著な成功を収めてきたが、その理論的理解は、特に構造化された幾何学的データの文脈において-探索されていないままである。本研究では、多様体上の H\ 古い関数の回帰に対する ICL の理論的研究を開始する。注意機構と古典的カーネル手法の新たな接続を確立することにより、即時長とトレーニングタスク数の観点から一般化誤差を導出する。十分な数の訓練タスクが観測されたとき、変換器は多様体上のH\"古い関数のミニマックス回帰率を生じさせ、これは周囲空間次元ではなく多様体の内在次元と指数関数的にスケールする。また,アルゴリズム学習者としてのトランスフォーマーの複雑さを隠蔽し,トレーニングタスク数に応じて一般化誤差がどのようにスケールするかを特徴付ける。本研究は, ICLにおける幾何学の役割に関する基礎的な知見と, 非線形モデルのICLを研究するためのノベルティクスツールを提供する。

関連論文リスト

Provable In-Context Learning of Nonlinear Regression with Transformers [58.018629320233174]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文参考訳（メタデータ） (2025-07-28T00:09:28Z)
Learning Beyond Euclid: Curvature-Adaptive Generalization for Neural Networks on Manifolds [0.0]
既存の一般化理論はしばしばユークリッド幾何学から導かれる複雑性測度に依存し、非ユークリッド空間の内在的構造を説明できない。我々は、断面曲率、体積成長、射影半径などの多様体固有の性質を明示的に組み込んだ数界を導出する。このフレームワークは、本質的な幾何学が学習能力にどのように影響するかを原則的に理解し、構造化データ領域の深層学習に理論的洞察と実践的意味の両方を提供する。
論文参考訳（メタデータ） (2025-07-01T23:16:49Z)
Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [48.67380502157004]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文参考訳（メタデータ） (2025-05-16T08:50:42Z)
Manifold Learning with Normalizing Flows: Towards Regularity, Expressivity and Iso-Riemannian Geometry [8.020732438595905]
この研究は、マルチモーダル設定で発生する歪みやモデリングエラーに対処することに焦点を当てている。本稿では,合成データと実データの両方を用いた数値実験において,提案手法の相乗効果を示す。
論文参考訳（メタデータ） (2025-05-12T21:44:42Z)
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
Differentiation and Specialization of Attention Heads via the Refined Local Learning Coefficient [0.49478969093606673]
特異学習理論に基づくモデル複雑性の尺度である局所学習係数 (LLC) の洗練された変種を導入する。本研究では,トランスフォーマー言語モデルにおける内部構造の開発について検討する。
論文参考訳（メタデータ） (2024-10-03T20:51:02Z)
Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文参考訳（メタデータ） (2024-08-22T08:02:10Z)
Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。 ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文参考訳（メタデータ） (2024-05-20T03:24:24Z)
On Computational Modeling of Sleep-Wake Cycle [5.234742752529437]
神経科学は、睡眠と覚醒を脳のデフォルトおよび摂動モードとして扱う。脳は環境入力なしで神経活動を自己組織していると仮定されている。本稿では,学習と記憶のための睡眠覚醒サイクルの新しい計算モデルを提案する。
論文参考訳（メタデータ） (2024-04-08T13:06:23Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。