論文の概要: SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive
Connection
- arxiv url: http://arxiv.org/abs/2003.09833v3
- Date: Tue, 29 Sep 2020 08:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:05:03.935507
- Title: SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive
Connection
- Title(参考訳): SAC: 疎適応接続による自己認識の促進と構造化
- Authors: Xiaoya Li, Yuxian Meng, Mingxin Zhou, Qinghong Han, Fei Wu and Jiwei
Li
- Abstract要約: 本稿では,スパース適応接続(Sparse Adaptive Connection)を提案する。
SACでは、入力シーケンスをグラフとみなし、リンクノード間のアテンション操作を行う。
我々は,SACが最先端モデルと競合する一方で,メモリコストを大幅に削減することを示した。
- 参考スコア(独自算出の注目度): 51.376723069962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the self-attention mechanism has been widely used in a wide variety of
tasks, it has the unfortunate property of a quadratic cost with respect to the
input length, which makes it difficult to deal with long inputs. In this paper,
we present a method for accelerating and structuring self-attentions: Sparse
Adaptive Connection (SAC). In SAC, we regard the input sequence as a graph and
attention operations are performed between linked nodes. In contrast with
previous self-attention models with pre-defined structures (edges), the model
learns to construct attention edges to improve task-specific performances. In
this way, the model is able to select the most salient nodes and reduce the
quadratic complexity regardless of the sequence length. Based on SAC, we show
that previous variants of self-attention models are its special cases. Through
extensive experiments on neural machine translation, language modeling, graph
representation learning and image classification, we demonstrate SAC is
competitive with state-of-the-art models while significantly reducing memory
cost.
- Abstract(参考訳): セルフアテンション機構は様々なタスクで広く用いられてきたが、入力長に関して二次コストの不幸な特性を持つため、長い入力を扱うことは困難である。
本稿では,Sparse Adaptive Connection (SAC) という自己注意の促進と構築手法を提案する。
sacでは、入力シーケンスをグラフとみなし、リンクされたノード間で注意操作を行う。
事前定義された構造(エッジ)を持つ以前の自己注意モデルとは対照的に、モデルはタスク固有のパフォーマンスを改善するために注目エッジを構築することを学ぶ。
このようにして、モデルは最もサルエントなノードを選択でき、シーケンス長に関係なく二次複雑性を低減できる。
SACに基づいて,従来の自己注意モデルが特別な場合であることを示す。
ニューラルネットワーク翻訳、言語モデリング、グラフ表現学習、画像分類に関する広範な実験を通じて、SACは最先端のモデルと競合し、メモリコストを大幅に削減することを示した。
関連論文リスト
- ELASTIC: Efficient Linear Attention for Sequential Interest Compression [5.689306819772134]
最先端のシーケンシャルレコメンデーションモデルは、トランスフォーマーの注意機構に大きく依存している。
逐次的関心圧縮のための効率的な線形注意法であるELASTICを提案する。
我々は、様々な公開データセットに関する広範な実験を行い、それをいくつかの強力なシーケンシャルなレコメンデータと比較する。
論文 参考訳(メタデータ) (2024-08-18T06:41:46Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - A Unified View of Long-Sequence Models towards Modeling Million-Scale
Dependencies [0.0]
既存の解と長周期モデリングを、その純粋数学的定式化の観点から比較する。
次に、長いコンテキスト長がアプリケーションに依存しているにもかかわらず、より良いパフォーマンスをもたらすことを実証します。
大量のキャパシティを持つスパースモデルに着想を得て,百万単位の依存関係を扱う機械学習システムを提案する。
論文 参考訳(メタデータ) (2023-02-13T09:47:31Z) - DAE-Former: Dual Attention-guided Efficient Transformer for Medical
Image Segmentation [3.9548535445908928]
DAE-Formerは,自己認識機構を効率的に設計することで,新たな視点の提供を目指す新しい手法である。
本手法は, プレトレーニング重量を必要とせずに, 多臓器心病変と皮膚病変のセグメンテーションデータセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-12-27T14:39:39Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Graph Conditioned Sparse-Attention for Improved Source Code
Understanding [0.0]
本稿では,スパース自己認識機構の注目マスクとしてグラフ隣接行列を用いて,ソースコードスニペットをグラフのモダリティで条件付けすることを提案する。
提案手法は,コード要約タスクにおけるBLEU, METEOR, ROUGE-Lの計測結果に到達し, 可変誤用タスクにおけるほぼ最先端の精度を示す。
論文 参考訳(メタデータ) (2021-12-01T17:21:55Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。