論文の概要: Bayes optimal learning of attention-indexed models
- arxiv url: http://arxiv.org/abs/2506.01582v1
- Date: Mon, 02 Jun 2025 12:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.302297
- Title: Bayes optimal learning of attention-indexed models
- Title(参考訳): 注意接点付きモデルのベイズ最適学習
- Authors: Fabrizio Boncoraglio, Emanuele Troiani, Vittorio Erba, Lenka Zdeborová,
- Abstract要約: 本稿では,深い注意層における学習を解析するための理論的枠組みであるAIMを紹介する。
ベイズ最適一般化誤差に対する閉形式予測を導出し、鋭い位相遷移を同定する。
本稿では, 近似メッセージパッシングアルゴリズムを提案し, 降下勾配が最適性能に達することを示す。
- 参考スコア(独自算出の注目度): 11.896345171019256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the attention-indexed model (AIM), a theoretical framework for analyzing learning in deep attention layers. Inspired by multi-index models, AIM captures how token-level outputs emerge from layered bilinear interactions over high-dimensional embeddings. Unlike prior tractable attention models, AIM allows full-width key and query matrices, aligning more closely with practical transformers. Using tools from statistical mechanics and random matrix theory, we derive closed-form predictions for Bayes-optimal generalization error and identify sharp phase transitions as a function of sample complexity, model width, and sequence length. We propose a matching approximate message passing algorithm and show that gradient descent can reach optimal performance. AIM offers a solvable playground for understanding learning in modern attention architectures.
- Abstract(参考訳): 本稿では,深い注意層における学習を解析するための理論的枠組みであるAIMを紹介する。
マルチインデックスモデルにインスパイアされたAIMは、高次元埋め込み上の層状双線形相互作用からトークンレベルの出力がどのように出現するかをキャプチャする。
従来のトラクタブルアテンションモデルとは異なり、AIMはフル幅のキーとクエリ行列を許容し、実用的なトランスフォーマーとより密に連携する。
統計力学とランダム行列理論のツールを用いてベイズ最適一般化誤差の閉形式予測を導出し、サンプル複雑性、モデル幅、シーケンス長の関数として鋭い位相遷移を同定する。
近似的メッセージパッシングアルゴリズムを提案し、勾配降下が最適性能に達することを示す。
AIMは、現代の注目アーキテクチャにおける学習を理解するための解決可能な遊び場を提供する。
関連論文リスト
- FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation [8.443350618722564]
本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。
チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。
改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
論文 参考訳(メタデータ) (2025-02-06T06:51:23Z) - DCIts -- Deep Convolutional Interpreter for time series [0.0]
このモデルは、最小限の時間枠内で必要なすべてのインタラクションをキャプチャする最適なウィンドウサイズを確実に決定できるように設計されている。
これは、高次項を組み込む際の複雑性のバランスをとるため、最適なモデルの順序を効果的に識別する。
これらの進歩は、力学系のモデリングと理解に重要な意味を持ち、モデルが応用および計算物理学者にとって貴重なツールとなる。
論文 参考訳(メタデータ) (2025-01-08T08:21:58Z) - Optimizing Attention with Mirror Descent: Generalized Max-Margin Token Selection [6.759148939470332]
アルゴリズムは、$ell_p$-normの目的を持つハードマージンSVMに収束することを示す。
具体的には、これらのアルゴリズムは、$ell_p$-normの目的を持つ一般化されたハードマージンSVMに収束することを示す。
論文 参考訳(メタデータ) (2024-10-18T16:32:06Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - OCAI: Improving Optical Flow Estimation by Occlusion and Consistency Aware Interpolation [55.676358801492114]
本稿では,中間映像フレームと光フローを同時に生成することで,フレームのあいまいさを頑健に支援するOCAIを提案する。
我々は,Sintel や KITTI などの既存のベンチマークにおいて,優れた品質と光フロー精度を実証した。
論文 参考訳(メタデータ) (2024-03-26T20:23:48Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Interflow: Aggregating Multi-layer Feature Mappings with Attention
Mechanism [0.7614628596146599]
本稿では,従来のCNNモデルに特化してInterflowアルゴリズムを提案する。
Interflowは、深さに応じてCNNを複数のステージに分割し、各ステージの特徴マッピングによって予測する。
勾配の消失問題を緩和し、ネットワーク深度選択の難しさを低減し、過度に適合できる問題を緩和することができる。
論文 参考訳(メタデータ) (2021-06-26T18:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。