論文の概要: Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost
- arxiv url: http://arxiv.org/abs/2210.15541v1
- Date: Thu, 27 Oct 2022 15:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:11:50.871059
- Title: Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost
- Title(参考訳): 確率的ブロックモデルに適合するトランスフォーマー:データ適応性とコストによる注意
- Authors: Sungjun Cho, Seonwoo Min, Jinwoo Kim, Moontae Lee, Honglak Lee,
Seunghoon Hong
- Abstract要約: 最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
- 参考スコア(独自算出の注目度): 53.746169882193456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To overcome the quadratic cost of self-attention, recent works have proposed
various sparse attention modules, most of which fall under one of two groups:
1) sparse attention under a hand-crafted patterns and 2) full attention
followed by a sparse variant of softmax such as $\alpha$-entmax. Unfortunately,
the first group lacks adaptability to data while the second still requires
quadratic cost in training. In this work, we propose SBM-Transformer, a model
that resolves both problems by endowing each attention head with a
mixed-membership Stochastic Block Model (SBM). Then, each attention head
data-adaptively samples a bipartite graph, the adjacency of which is used as an
attention mask for each input. During backpropagation, a straight-through
estimator is used to flow gradients beyond the discrete sampling step and
adjust the probabilities of sampled edges based on the predictive loss. The
forward and backward cost are thus linear to the number of edges, which each
attention head can also choose flexibly based on the input. By assessing the
distribution of graphs, we theoretically show that SBM-Transformer is a
universal approximator for arbitrary sequence-to-sequence functions in
expectation. Empirical evaluations under the LRA and GLUE benchmarks
demonstrate that our model outperforms previous efficient variants as well as
the original Transformer with full attention. Our implementation can be found
in https://github.com/sc782/SBM-Transformer .
- Abstract(参考訳): 二次的な自己注意のコストを克服するために、最近の研究は様々な疎い注意モジュールを提案しており、そのほとんどは2つのグループのうちの1つに該当する。
1)手作りの模様の下のまばらな注意
2) フルアテンションに続いて$\alpha$-entmaxなどのソフトマックスのスパース変種が続く。
残念ながら、第1グループはデータへの適応性に欠けており、第2グループはトレーニングに2次的なコストを必要とする。
本研究では,SBM-Transformerを提案する。このモデルでは,各アテンションヘッドに混合メンバーシップ確率ブロックモデル(SBM)を付与することにより,両方の問題を解決する。
そして、各アテンションヘッドが二部グラフをデータ順にサンプリングし、その隣接度を各入力のアテンションマスクとして使用する。
バックプロパゲーションの間、ストレートスルー推定器は離散サンプリングステップを超えて勾配を流し、予測損失に基づいてサンプルエッジの確率を調整する。
したがって、前方コストと後方コストはエッジ数に線形であり、各注意ヘッドは入力に基づいて柔軟に選択することもできる。
グラフの分布を評価することにより、SBM-Transformer が期待される任意の順序列列関数の普遍近似であることを示す。
LRA と GLUE のベンチマークによる実証的な評価により,本モデルが従来の効率のよい変種やトランスフォーマーよりも優れていることが示された。
私たちの実装はhttps://github.com/sc782/SBM-Transformerで確認できます。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Tilt your Head: Activating the Hidden Spatial-Invariance of Classifiers [0.7704032792820767]
ディープニューラルネットワークは、日々の生活の多くの領域に適用されている。
これらは、空間的に変換された入力信号に頑健に対処するなど、依然として必須の能力が欠如している。
本稿では,ニューラルネットの推論過程をエミュレートする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T09:47:29Z) - Hierarchical Vector Quantized Transformer for Multi-class Unsupervised
Anomaly Detection [24.11900895337062]
教師なし画像異常検出(UAD)は、正常サンプルの堅牢かつ識別的な表現を学習することを目的としている。
本稿では,複数のクラスに統一されたフレームワークを構築することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-22T08:20:33Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Probabilistic fine-tuning of pruning masks and PAC-Bayes self-bounded
learning [16.526326919313924]
本研究では, プルーニングマスクの損失を最適化することにより, プルーニングマスクの学習方法を検討する。
線形回帰の設定における誘導適応予測器のトレーニングダイナミクスを解析する。
PAC-Bayes一般化誤差境界は, 先行データと後続データとの間の特徴アライメントの変化の大きさによって制御されることを示す。
論文 参考訳(メタデータ) (2021-10-22T14:25:22Z) - Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文 参考訳(メタデータ) (2021-09-24T20:51:21Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。