論文の概要: Paramixer: Parameterizing Mixing Links in Sparse Factors Works Better
than Dot-Product Self-Attention
- arxiv url: http://arxiv.org/abs/2204.10670v1
- Date: Fri, 22 Apr 2022 12:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 12:59:31.656666
- Title: Paramixer: Parameterizing Mixing Links in Sparse Factors Works Better
than Dot-Product Self-Attention
- Title(参考訳): Paramixer: Dot-Product Self-Attentionよりも優れたスパースファクタにおける混合リンクのパラメータ化
- Authors: Tong Yu, Ruslan Khalitov, Lei Cheng, Zhirong Yang
- Abstract要約: セルフアテンション(Self-attention)は、ニューラルネットワークにおいて、長距離データ要素を混合するために広く使用されているビルディングブロックである。
そこで我々は,Paramixerと呼ばれる,スケーラブルで効果的に混合できるビルディングブロックを提案する。
新しいビルディングブロックの全体的な計算コストは、$O(N log N)$である。
- 参考スコア(独自算出の注目度): 9.205331586765613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Attention is a widely used building block in neural modeling to mix
long-range data elements. Most self-attention neural networks employ pairwise
dot-products to specify the attention coefficients. However, these methods
require $O(N^2)$ computing cost for sequence length $N$. Even though some
approximation methods have been introduced to relieve the quadratic cost, the
performance of the dot-product approach is still bottlenecked by the low-rank
constraint in the attention matrix factorization. In this paper, we propose a
novel scalable and effective mixing building block called Paramixer. Our method
factorizes the interaction matrix into several sparse matrices, where we
parameterize the non-zero entries by MLPs with the data elements as input. The
overall computing cost of the new building block is as low as $O(N \log N)$.
Moreover, all factorizing matrices in Paramixer are full-rank, so it does not
suffer from the low-rank bottleneck. We have tested the new method on both
synthetic and various real-world long sequential data sets and compared it with
several state-of-the-art attention networks. The experimental results show that
Paramixer has better performance in most learning tasks.
- Abstract(参考訳): セルフアテンション(self-attention)は、ニューラルネットワークのモデリングにおいて、長距離データ要素を混合するために広く使用される構成要素である。
ほとんどのセルフアテンションニューラルネットワークは、注意係数を指定するためにペアワイズなドット積を用いる。
しかし、これらの方法はシーケンス長$N$の計算コストが$O(N^2)である。
二次コストを緩和するためにいくつかの近似法が導入されたが、ドット積法の性能は注意行列因子化の低ランク制約によって依然としてボトルネックとなっている。
本稿では,パラミキサーと呼ばれる,スケーラブルで効率的な混合ブロックを提案する。
本手法は相互作用行列を複数のスパース行列に分解し,データ要素を入力としてMPPを用いて非ゼロ成分をパラメータ化する。
新しいビルディングブロックの全体的な計算コストは、$O(N \log N)$である。
さらに、パラミキサーのすべての分解行列はフルランクであるため、低ランクのボトルネックに悩まされない。
我々は,合成データと様々な実世界の長大データセットの両方で新しい手法をテストし,いくつかの最先端のアテンションネットワークと比較した。
実験の結果,paramixerはほとんどの学習タスクにおいて優れた性能を示すことがわかった。
関連論文リスト
- Perturb-and-Project: Differentially Private Similarities and Marginals [73.98880839337873]
差分プライバシーのための入力摂動フレームワークを再検討し、入力にノイズを付加する。
まず、ペアワイズ・コサイン類似性をプライベートにリリースするための新しい効率的なアルゴリズムを設計する。
我々は,$k$の辺縁クエリを$n$の機能に対して計算する新しいアルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-06-07T12:07:16Z) - FeDXL: Provable Federated Learning for Deep X-Risk Optimization [105.17383135458897]
我々は、既存のアルゴリズムが適用できないXリスクのファミリーを最適化するために、新しい連邦学習(FL)問題に取り組む。
Xリスクに対するFLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非可逆性と、異なるマシン間の相互依存にある。
論文 参考訳(メタデータ) (2022-10-26T00:23:36Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Learning Best Combination for Efficient N:M Sparsity [75.34103761423803]
N:M学習は自然に有限コレクション内で最高の組み合わせを求める問題として特徴づけられる。
学習の最良の組み合わせ (LBC) は, 様々なネットワークにおいて, 市販のN:Mスポーサリティ手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-06-14T07:51:31Z) - Computationally Efficient Approximations for Matrix-based Renyi's
Entropy [33.72108955447222]
最近開発された行列ベースのRenyiのエントロピーは、データ内の情報の計測を可能にする。
そのような量の計算には、PSD行列の$G$上のトレース演算子を$alpha$(つまり$tr(Galpha)$)の電力とする。
我々は、この新しいエントロピー汎函数に対する計算学的に効率的な近似を示し、その複雑性を$O(n2)$よりもはるかに小さくすることができる。
論文 参考訳(メタデータ) (2021-12-27T14:59:52Z) - Joint Majorization-Minimization for Nonnegative Matrix Factorization
with the $\beta$-divergence [4.468952886990851]
本稿では、$beta$-divergenceの目的関数を持つ非負行列分解(NMF)に対する新しい乗法的更新を提案する。
種々のデータセット(顔画像,音声スペクトログラム,ハイパースペクトルデータ,歌曲数)を用いて実験結果を報告する。
論文 参考訳(メタデータ) (2021-06-29T09:58:21Z) - Robust Model Selection and Nearly-Proper Learning for GMMs [26.388358539260473]
学習理論では、データは有限混合モデルから生成されるという標準的な仮定がある。しかし、コンポーネントの数が事前に分かっていないときに何が起こるのか。
対数係数内の分布に適合するために必要な最小コンポーネント数を、およそ決定することができる。
論文 参考訳(メタデータ) (2021-06-05T01:58:40Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - Robustly Learning any Clusterable Mixture of Gaussians [55.41573600814391]
本研究では,高次元ガウス混合系の対向ロバスト条件下での効率的な学習性について検討する。
理論的に最適に近い誤り証明である$tildeO(epsilon)$の情報を、$epsilon$-corrupted $k$-mixtureで学習するアルゴリズムを提供する。
我々の主な技術的貢献は、ガウス混合系からの新しい頑健な識別可能性証明クラスターであり、これは正方形の定度証明システムによって捉えることができる。
論文 参考訳(メタデータ) (2020-05-13T16:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。