論文の概要: On the Optimization and Generalization of Multi-head Attention
- arxiv url: http://arxiv.org/abs/2310.12680v2
- Date: Sat, 12 Oct 2024 04:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:03:49.139024
- Title: On the Optimization and Generalization of Multi-head Attention
- Title(参考訳): マルチヘッド注意の最適化と一般化について
- Authors: Puneesh Deora, Rouzbeh Ghaderi, Hossein Taheri, Christos Thrampoulidis,
- Abstract要約: マルチアテンションヘッドを用いた場合の潜在的な最適化と一般化の利点について検討する。
単層多層自己アテンションモデルの勾配差学習における収束と一般化の保証を導出する。
- 参考スコア(独自算出の注目度): 28.33164313549433
- License:
- Abstract: The training and generalization dynamics of the Transformer's core mechanism, namely the Attention mechanism, remain under-explored. Besides, existing analyses primarily focus on single-head attention. Inspired by the demonstrated benefits of overparameterization when training fully-connected networks, we investigate the potential optimization and generalization advantages of using multiple attention heads. Towards this goal, we derive convergence and generalization guarantees for gradient-descent training of a single-layer multi-head self-attention model, under a suitable realizability condition on the data. We then establish primitive conditions on the initialization that ensure realizability holds. Finally, we demonstrate that these conditions are satisfied for a simple tokenized-mixture model. We expect the analysis can be extended to various data-model and architecture variations.
- Abstract(参考訳): トランスフォーマーのコア機構、すなわちアテンション機構のトレーニングと一般化のダイナミクスは、まだ解明されていないままである。
さらに、既存の分析は主にシングルヘッドの注意に焦点を当てている。
完全に接続されたネットワークをトレーニングする際の過パラメータ化の利点に触発され、複数の注意頭を用いた潜在的最適化と一般化の利点について検討する。
この目的に向けて、データ上で適切な実現可能性条件の下で、単層多層自己アテンションモデルの収束と一般化の保証を導出する。
次に、実現可能性を保証する初期化に関する原始条件を確立する。
最後に、これらの条件が単純なトークン化混合モデルに対して満たされることを示す。
分析はさまざまなデータモデルやアーキテクチャのバリエーションに拡張できると考えています。
関連論文リスト
- Multi-fidelity Machine Learning for Uncertainty Quantification and Optimization [4.557963624437784]
多忠実度法は計算コストと予測精度のバランスをとるために高忠実度モデルと低忠実度モデルを統合する。
本稿では,機械学習に基づくマルチ忠実度手法の出現分野を詳細に概観する。
論文 参考訳(メタデータ) (2024-10-30T22:22:07Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z) - A Bayesian Unification of Self-Supervised Clustering and Energy-Based
Models [11.007541337967027]
我々は、最先端の自己教師型学習目標のベイズ分析を行う。
目的関数が既存の自己教師型学習戦略より優れていることを示す。
また、GEDIをニューロシンボリックな枠組みに統合できることを実証した。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - Dance of Channel and Sequence: An Efficient Attention-Based Approach for
Multivariate Time Series Forecasting [3.372816393214188]
CSformerは、2段階の自己保持機構を巧みに設計した革新的なフレームワークである。
シーケンスアダプタとチャネルアダプタを導入し、モデルが様々な次元にわたって有能な特徴を識別できるようにする。
論文 参考訳(メタデータ) (2023-12-11T09:10:38Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Convexifying Transformers: Improving optimization and understanding of
transformer networks [56.69983975369641]
本研究では,注目/変圧器ネットワークのトレーニング問題について検討し,新しい凸解析手法を提案する。
まず,自己注意機構の代替として凸を導入し,変圧器ネットワークの正規化学習問題を再構成する。
凸解析の副産物として,トークン間の空間性を促進する暗黙の規則化機構を明らかにする。
論文 参考訳(メタデータ) (2022-11-20T18:17:47Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。