論文の概要: Sparse Sinkhorn Attention
- arxiv url: http://arxiv.org/abs/2002.11296v1
- Date: Wed, 26 Feb 2020 04:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 13:56:41.656411
- Title: Sparse Sinkhorn Attention
- Title(参考訳): まばらなシンクホーンの注意
- Authors: Yi Tay, Dara Bahri, Liu Yang, Donald Metzler, and Da-Cheng Juan
- Abstract要約: Sparse Sinkhorn Attentionを提案する。
本稿では,列上の潜在置換を生成するメタソートネットワークを提案する。
ソートシーケンスが与えられた場合、局所ウィンドウのみを用いて準グロバルアテンションを計算することができる。
- 参考スコア(独自算出の注目度): 93.88158993722716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Sparse Sinkhorn Attention, a new efficient and sparse method for
learning to attend. Our method is based on differentiable sorting of internal
representations. Concretely, we introduce a meta sorting network that learns to
generate latent permutations over sequences. Given sorted sequences, we are
then able to compute quasi-global attention with only local windows, improving
the memory efficiency of the attention module. To this end, we propose new
algorithmic innovations such as Causal Sinkhorn Balancing and SortCut, a
dynamic sequence truncation method for tailoring Sinkhorn Attention for
encoding and/or decoding purposes. Via extensive experiments on algorithmic
seq2seq sorting, language modeling, pixel-wise image generation, document
classification and natural language inference, we demonstrate that our memory
efficient Sinkhorn Attention method is competitive with vanilla attention and
consistently outperforms recently proposed efficient Transformer models such as
Sparse Transformers.
- Abstract(参考訳): そこで本研究では,新しい学習方法であるsparse sinkhorn attentionを提案する。
本手法は内部表現の微分可能なソートに基づいている。
具体的には,シーケンス上の潜在置換生成を学習するメタソートネットワークを提案する。
ソートされたシーケンスが与えられたら、ローカルウィンドウだけで準グローバルアテンションを計算でき、アテンションモジュールのメモリ効率が向上します。
そこで本研究では,Sinkhorn Balancing や SortCut などのアルゴリズムを改良し,Sinkhorn Attention を符号化や復号のために調整する動的シーケンストランケーション手法を提案する。
アルゴリズムによるseq2seqソート、言語モデリング、画素単位の画像生成、文書分類、自然言語推論に関する広範な実験を通じて、我々のメモリ効率の良いシンクホーンアテンション手法がバニラアテンションと競合し、最近提案されたスパーストランスフォーマーのような効率的なトランスフォーマーモデルに一貫して勝っていることを実証する。
関連論文リスト
- Compressed online Sinkhorn [3.2534959204741085]
我々は最近導入された[Mensch and Peyr'e, 2020]オンラインシンクホーンアルゴリズムを再考する。
我々は、オンラインシンクホーンアルゴリズムの収束解析を改善し、パラメータ選択によって得られる新しいレートは、以前のレートよりも高速である。
次に, オンラインシンクホーン法と, オンラインシンクホーン法を組み合わせた圧縮オンラインシンクホーン法を提案する。
論文 参考訳(メタデータ) (2023-10-08T05:33:32Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - A Unified Framework for Implicit Sinkhorn Differentiation [58.56866763433335]
暗黙の微分によってシンクホーン層の解析勾配を求めるアルゴリズムを提案する。
特にGPUメモリなどのリソースが不足している場合には,計算効率が向上する。
論文 参考訳(メタデータ) (2022-05-13T14:45:31Z) - Discovering Non-monotonic Autoregressive Orderings with Variational
Inference [67.27561153666211]
我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
論文 参考訳(メタデータ) (2021-10-27T16:08:09Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Hard Non-Monotonic Attention for Character-Level Transduction [65.17388794270694]
2つの弦間の多くの非単調なアライメントを余剰化するための厳密な指数時間アルゴリズムを導入する。
ソフト・モノトニック・アテンションとハード・ノン・モノトニック・アテンションを実験的に比較したところ、正確なアルゴリズムは近似よりも性能を著しく改善し、ソフト・アテンションよりも優れていた。
論文 参考訳(メタデータ) (2018-08-29T20:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。