論文の概要: Transformer with Fourier Integral Attentions
- arxiv url: http://arxiv.org/abs/2206.00206v1
- Date: Wed, 1 Jun 2022 03:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 16:02:36.038710
- Title: Transformer with Fourier Integral Attentions
- Title(参考訳): フーリエ積分注意を有する変圧器
- Authors: Tan Nguyen and Minh Pham and Tam Nguyen and Khai Nguyen and Stanley J.
Osher and Nhat Ho
- Abstract要約: 本稿では,ドット積カーネルを一般化されたフーリエ積分カーネルに置き換えた新しい変圧器のクラスを提案する。
FourierFormersは従来のドット生成型変換器と比較して精度が向上し、注目ヘッド間の冗長性が低減された。
本稿では,FourierFormersのベースライントランスフォーマーに対する利点を,言語モデリングや画像分類など,様々な実践的応用において実証的に相関付けする。
- 参考スコア(独自算出の注目度): 18.031977028559282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-head attention empowers the recent success of transformers, the
state-of-the-art models that have achieved remarkable success in sequence
modeling and beyond. These attention mechanisms compute the pairwise dot
products between the queries and keys, which results from the use of
unnormalized Gaussian kernels with the assumption that the queries follow a
mixture of Gaussian distribution. There is no guarantee that this assumption is
valid in practice. In response, we first interpret attention in transformers as
a nonparametric kernel regression. We then propose the FourierFormer, a new
class of transformers in which the dot-product kernels are replaced by the
novel generalized Fourier integral kernels. Different from the dot-product
kernels, where we need to choose a good covariance matrix to capture the
dependency of the features of data, the generalized Fourier integral kernels
can automatically capture such dependency and remove the need to tune the
covariance matrix. We theoretically prove that our proposed Fourier integral
kernels can efficiently approximate any key and query distributions. Compared
to the conventional transformers with dot-product attention, FourierFormers
attain better accuracy and reduce the redundancy between attention heads. We
empirically corroborate the advantages of FourierFormers over the baseline
transformers in a variety of practical applications including language modeling
and image classification.
- Abstract(参考訳): マルチヘッドアテンションは、シークエンスモデリングなどにおいて顕著な成功を収めた最先端のモデルであるトランスフォーマーの最近の成功を促進する。
これらの注意機構は、クエリとキー間のペアのドット積を計算し、クエリがガウス分布の混合に従うと仮定して、正規化されていないガウスカーネルを使用することから生じる。
この仮定が実際に有効であるという保証はない。
これに対し、まずトランスの注意を非パラメトリックカーネル回帰として解釈する。
次に、点積核を新しい一般化フーリエ積分核に置き換える新しい変圧器のクラスであるフーリエフォーマーを提案する。
データの特徴の依存性をキャプチャするよい共分散行列を選択する必要があるドット製品カーネルとは異なり、一般化されたフーリエ積分カーネルは、そのような依存性を自動的にキャプチャし、共分散行列をチューニングする必要をなくすことができる。
理論上,提案するフーリエ積分核は,任意のキー分布とクエリ分布を効率的に近似できることを実証する。
FourierFormersは従来のドット生成型変換器と比較して精度が向上し、注目ヘッド間の冗長性が低減された。
本稿では,FourierFormersのベースライントランスフォーマーに対する利点を,言語モデリングや画像分類など,様々な応用で実証的に相関付けする。
関連論文リスト
- New random projections for isotropic kernels using stable spectral distributions [0.0]
スペクトルカーネル分布を$alpha$-stableランダムベクトルのスケール混合として分解する。
結果は、サポートベクターマシン、カーネルリッジレグレッション、その他のカーネルベースの機械学習技術に広く応用されている。
論文 参考訳(メタデータ) (2024-11-05T03:28:01Z) - Variance-Reducing Couplings for Random Features [57.73648780299374]
ランダム機能(RF)は、機械学習においてカーネルメソッドをスケールアップする一般的なテクニックである。
ユークリッド空間と離散入力空間の両方で定義されるRFを改善するための結合を求める。
パラダイムとしての分散還元の利点と限界について、驚くほどの結論に達した。
論文 参考訳(メタデータ) (2024-05-26T12:25:09Z) - Solving High Frequency and Multi-Scale PDEs with Gaussian Processes [18.190228010565367]
PINNは、しばしば高周波およびマルチスケールのPDEを解決するのに苦労する。
我々はこの問題を解決するためにガウス過程(GP)フレームワークを利用する。
我々はKroneckerの製品特性と多線型代数を用いて計算効率とスケーラビリティを向上する。
論文 参考訳(メタデータ) (2023-11-08T05:26:58Z) - Kernel Learning by quantum annealer [0.966840768820136]
本稿では,Boltzmann マシンのカーネル行列への応用について述べる。
ガウス分布では実現不可能なスペクトル分布を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-04-20T08:08:03Z) - Deep Fourier Up-Sampling [100.59885545206744]
フーリエ領域のアップサンプリングは、そのような局所的な性質に従わないため、より難しい。
これらの問題を解決するために理論的に健全なDeep Fourier Up-Sampling (FourierUp)を提案する。
論文 参考訳(メタデータ) (2022-10-11T06:17:31Z) - Unified Fourier-based Kernel and Nonlinearity Design for Equivariant
Networks on Homogeneous Spaces [52.424621227687894]
等質空間上の群同変ネットワークに対する統一的枠組みを導入する。
昇降した特徴場のフーリエ係数の空間性を利用する。
安定化部分群におけるフーリエ係数としての特徴を取り扱う他の方法が、我々のアクティベーションの特別な場合であることを示す。
論文 参考訳(メタデータ) (2022-06-16T17:59:01Z) - Scalable Variational Gaussian Processes via Harmonic Kernel
Decomposition [54.07797071198249]
汎用性を維持しつつ高い忠実度近似を提供する,スケーラブルな変分ガウス過程近似を導入する。
様々な回帰問題や分類問題において,本手法は変換やリフレクションなどの入力空間対称性を活用できることを実証する。
提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-10T18:17:57Z) - Learning Set Functions that are Sparse in Non-Orthogonal Fourier Bases [73.53227696624306]
フーリエスパース集合関数を学習するための新しいアルゴリズム群を提案する。
Walsh-Hadamard変換に焦点をあてた他の研究とは対照的に、我々の新しいアルゴリズムは最近導入された非直交フーリエ変換で機能する。
いくつかの実世界のアプリケーションで有効性を示す。
論文 参考訳(メタデータ) (2020-10-01T14:31:59Z) - Gaussianization Flows [113.79542218282282]
そこで本研究では,サンプル生成における効率のよい繰り返しと効率のよい逆変換を両立できる新しい型正規化フローモデルを提案する。
この保証された表現性のため、サンプル生成の効率を損なうことなく、マルチモーダルなターゲット分布をキャプチャできる。
論文 参考訳(メタデータ) (2020-03-04T08:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。