論文の概要: Dimension-Free Minimax Rates for Learning Pairwise Interactions in Attention-Style Models
- arxiv url: http://arxiv.org/abs/2510.11789v1
- Date: Mon, 13 Oct 2025 18:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.04549
- Title: Dimension-Free Minimax Rates for Learning Pairwise Interactions in Attention-Style Models
- Title(参考訳): 注意型モデルにおけるペアワイズ学習のための次元自由最小値
- Authors: Shai Zucker, Xiong Wang, Fei Lu, Inbar Seroussi,
- Abstract要約: 単層アテンション型モデルにおけるペアワイズ相互作用の収束率について検討する。
ミニマックスレートが$M-frac2beta2beta+1$でサンプルサイズが$M$であることを証明する。
- 参考スコア(独自算出の注目度): 9.144120605998138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the convergence rate of learning pairwise interactions in single-layer attention-style models, where tokens interact through a weight matrix and a non-linear activation function. We prove that the minimax rate is $M^{-\frac{2\beta}{2\beta+1}}$ with $M$ being the sample size, depending only on the smoothness $\beta$ of the activation, and crucially independent of token count, ambient dimension, or rank of the weight matrix. These results highlight a fundamental dimension-free statistical efficiency of attention-style nonlocal models, even when the weight matrix and activation are not separately identifiable and provide a theoretical understanding of the attention mechanism and its training.
- Abstract(参考訳): 本研究では,トークンが重み行列と非線形活性化関数を介して相互作用する単一層アテンション型モデルにおいて,ペアワイズ相互作用の収束率について検討する。
ミニマックスレートが$M^{-\frac{2\beta}{2\beta+1}}$であり、M$が標本サイズであることは、アクティベーションの滑らかさ$\beta$にのみ依存し、トークン数、周囲寸法、およびウェイトマトリックスのランクに決定的に依存することを証明する。
これらの結果は、重み行列とアクティベーションが別々に識別できない場合でも、注意スタイルの非局所モデルの基本的な次元自由統計効率を強調し、注意機構とその訓練に関する理論的理解を提供する。
関連論文リスト
- Multi-agent imitation learning with function approximation: Linear Markov games and beyond [63.14746189846806]
線形マルコフゲームにおけるマルチエージェント模倣学習(MAIL)の第一理論解析について述べる。
本研究は,「全政策偏差集中係数」を特徴量で定義した集中係数に置き換えることが可能であることを示す。
我々は,Tic-Tac-Toe や Connect4 などのゲームにおいて,BC よりも明らかに優れる深いMAIL 対話型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-26T09:50:15Z) - Explicit Multi-head Attention for Inter-head Interaction in Large Language Models [70.96854312026319]
マルチヘッド明示的注意(Multi-head Explicit Attention、MEA)は、頭間相互作用を明示的にモデル化した、単純で効果的な注意法である。
MEAは事前トレーニングにおいて強い堅牢性を示し、より高速な収束につながる学習率を使用することを可能にします。
これにより、KVキャッシュメモリ使用率を50%削減できる実用的なキー値キャッシュ圧縮戦略が実現される。
論文 参考訳(メタデータ) (2026-01-27T13:45:03Z) - Mamaba Can Learn Low-Dimensional Targets In-Context via Test-Time Feature Learning [53.983686308399676]
Mambaは、強い経験的性能を持つ線形時間列モデルである。
単一インデックスモデル $y approx g_* (langle boldsymbolbeta, boldsymbolx rangle)$ の文脈内学習について検討する。
勾配に基づく手法で事前学習したMambaは,テスト時間特徴学習によって効率的なICLを実現することができることを示す。
論文 参考訳(メタデータ) (2025-10-14T00:21:20Z) - A Random Matrix Analysis of In-context Memorization for Nonlinear Attention [18.90197287760915]
非線形注意は、ランダムな入力に対する線形リッジ回帰よりも高い記憶誤差をもたらすことを示す。
その結果,非線形注意の記憶性能を管理するために,非線形性と入力構造がどのように相互作用するかが明らかになった。
論文 参考訳(メタデータ) (2025-06-23T13:56:43Z) - Robustness of Nonlinear Representation Learning [60.15898117103069]
本研究では,教師なし表現学習の問題を,わずかに不特定な環境で研究する。
混合は線形変換と小さな誤差で識別可能であることを示す。
これらの結果は、実世界のデータに対する教師なし表現学習における識別可能性向上へのステップである。
論文 参考訳(メタデータ) (2025-03-19T15:57:03Z) - Low-Rank Matrix Factorizations with Volume-based Constraints and Regularizations [2.6687460222685226]
この論文は、解釈可能性と特異性を高めるために設計されたボリュームベースの制約と正規化に焦点を当てている。
ブラインドソース分離やデータ計算の欠如といったアプリケーションによって動機付けられたこの論文は、効率的なアルゴリズムも提案している。
論文 参考訳(メタデータ) (2024-12-09T10:58:23Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - On Characterizing and Mitigating Imbalances in Multi-Instance Partial Label Learning [57.18649648182171]
我々は、MI-PLLの文脈において、これまで研究されていない問題に対処するためのコントリビューションを行っている。
最小限の仮定をしながら、クラス固有のMI-PLLのリスク境界を導出する。
我々の理論は、$sigma$が学習の不均衡に大きな影響を及ぼすというユニークな現象を明らかにしている。
論文 参考訳(メタデータ) (2024-07-13T20:56:34Z) - The Local Interaction Basis: Identifying Computationally-Relevant and Sparsely Interacting Features in Neural Networks [0.0]
Local Interaction Basisは、無関係なアクティベーションとインタラクションを取り除くことによって、計算的特徴を特定することを目的としている。
モジュラ付加モデルとCIFAR-10モデルにおけるLIBの有効性を評価する。
我々は、LIBはニューラルネットワークを解析するための有望な理論駆動型アプローチであるが、現在の形式では、大きな言語モデルには適用できないと結論付けた。
論文 参考訳(メタデータ) (2024-05-17T17:27:19Z) - A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z) - Learning Cross-view Geo-localization Embeddings via Dynamic Weighted
Decorrelation Regularization [52.493240055559916]
クロスビュージオローカライゼーションは、ドローンプラットフォームと衛星プラットフォームという2つのプラットフォームから撮影された同じ位置の画像を見つけることを目的としている。
既存の手法は、通常、特徴空間内の他のものとの埋め込み距離を最適化することに焦点を当てる。
本稿では、低冗長性も重要であり、モデルがより多様なパターンをマイニングする動機となっていると論じる。
論文 参考訳(メタデータ) (2022-11-10T02:13:10Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。