論文の概要: Superiority of Multi-Head Attention in In-Context Linear Regression
- arxiv url: http://arxiv.org/abs/2401.17426v1
- Date: Tue, 30 Jan 2024 20:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:27:07.309135
- Title: Superiority of Multi-Head Attention in In-Context Linear Regression
- Title(参考訳): 文脈内線形回帰における多頭部注意の優位性
- Authors: Yingqian Cui, Jie Ren, Pengfei He, Jiliang Tang, Yue Xing
- Abstract要約: 精度の高い埋め込み次元を持つマルチヘッドアテンションは、シングルヘッドアテンションよりも優れていることを示すために、正確な理論的解析を行う。
一般に、シングルヘッドの注意よりもマルチヘッドの注意が好ましい。
- 参考スコア(独自算出の注目度): 39.469021333473435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a theoretical analysis of the performance of transformer with
softmax attention in in-context learning with linear regression tasks. While
the existing literature predominantly focuses on the convergence of
transformers with single-/multi-head attention, our research centers on
comparing their performance. We conduct an exact theoretical analysis to
demonstrate that multi-head attention with a substantial embedding dimension
performs better than single-head attention. When the number of in-context
examples D increases, the prediction loss using single-/multi-head attention is
in O(1/D), and the one for multi-head attention has a smaller multiplicative
constant. In addition to the simplest data distribution setting, we consider
more scenarios, e.g., noisy labels, local examples, correlated features, and
prior knowledge. We observe that, in general, multi-head attention is preferred
over single-head attention. Our results verify the effectiveness of the design
of multi-head attention in the transformer architecture.
- Abstract(参考訳): 線形回帰タスクを用いた文脈内学習において,ソフトマックスを考慮した変圧器の性能に関する理論的解析を行った。
現行の文献では, 単頭/多頭注意による変圧器の収束に主眼を置きつつ, 性能比較に焦点をあてている。
重ね合わせ次元の多頭注意が単頭注意よりも優れていることを示すために, 正確な理論解析を行う。
文脈内例 d が増加すると、単頭/多頭注意による予測損失は o(1/d) であり、多頭注意の予測損失はより小さい乗算定数を持つ。
最も単純なデータ分散設定に加えて、ノイズラベル、局所的な例、相関した特徴、事前知識などのシナリオについても検討する。
一般に,複数頭部の注意は単一頭部の注意よりも優先される。
本研究はトランスフォーマーアーキテクチャにおけるマルチヘッドアテンションの設計の有効性を検証する。
関連論文リスト
- Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。
埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。
本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:45:15Z) - Linear Log-Normal Attention with Unbiased Concentration [3.034257650900382]
本研究では,注意行列の分布と集中度を解析し,自己注意機構について検討した。
本稿では,これらの量を計測し,新たな自己注意機構である線形ログNormal Attentionを提案する。
ポピュラーな自然言語ベンチマークの実験結果から,提案した線形ログNormal Attentionは,他の線形化アテンションよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2023-11-22T17:30:41Z) - On the Optimization and Generalization of Multi-head Attention [28.33164313549433]
マルチアテンションヘッドを用いた場合の潜在的な最適化と一般化の利点について検討する。
単層多層自己アテンションモデルの勾配差学習における収束と一般化の保証を導出する。
論文 参考訳(メタデータ) (2023-10-19T12:18:24Z) - Perceiver-based CDF Modeling for Time Series Forecasting [25.26713741799865]
本稿では,時系列データの累積分布関数(CDF)をモデル化するための新しいアーキテクチャであるPerceiver-CDFを提案する。
提案手法は,マルチモーダル時系列予測に適したコプラに基づくアテンション機構と,知覚アーキテクチャを組み合わせたものである。
単調かつマルチモーダルなベンチマークの実験は、最先端の手法よりも20%改善されていることを一貫して示している。
論文 参考訳(メタデータ) (2023-10-03T01:13:17Z) - Revisiting Modality Imbalance In Multimodal Pedestrian Detection [6.7841188753203046]
本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モーダル間の相違を解消する。
具体的には,2つの特徴抽出器を訓練中に同等に重要視することにより,特徴融合法をより堅牢にすることを支援する。
論文 参考訳(メタデータ) (2023-02-24T11:56:57Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - SimpleTron: Eliminating Softmax from Attention Computation [68.8204255655161]
そこで本研究では,ドット積のペアワイズアテンション層がモデル性能に冗長であることを示す。
我々の知る限りでは、Long-Range Arenaベンチマークのいくつかのタスクにおける既存の注意評価よりも優れる、シンプルで高速な代替案を提案する。
論文 参考訳(メタデータ) (2021-11-23T17:06:01Z) - An empirical evaluation of attention-based multi-head models for
improved turbofan engine remaining useful life prediction [9.282239595143787]
シングルユニット(ヘッド)は、多変量時系列信号に基づいて訓練されたディープラーニングアーキテクチャにおける従来の入力特徴抽出器である。
この研究は、従来のシングルヘッド深層学習モデルを、コンテキスト固有のヘッドを開発することにより、より堅牢な形式に拡張する。
論文 参考訳(メタデータ) (2021-09-04T01:13:47Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。