論文の概要: Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for
Long Sequences
- arxiv url: http://arxiv.org/abs/2210.11794v1
- Date: Fri, 21 Oct 2022 08:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:42:56.115615
- Title: Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for
Long Sequences
- Title(参考訳): ディフューザ:長時間列用マルチホップアテンションディフューザを用いた高効率変圧器
- Authors: Aosong Feng, Irene Li, Yuang Jiang, Rex Ying
- Abstract要約: textitDiffuserはシーケンシャル・ツー・シーケンス・モデリングのための新しい効率的なトランスフォーマーである。
低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。
スペクトルの観点からグラフ展開特性を解析することにより、全アテンションを近似する能力を示す。
- 参考スコア(独自算出の注目度): 16.066338004414092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient Transformers have been developed for long sequence modeling, due to
their subquadratic memory and time complexity. Sparse Transformer is a popular
approach to improving the efficiency of Transformers by restricting
self-attention to locations specified by the predefined sparse patterns.
However, leveraging sparsity may sacrifice expressiveness compared to
full-attention, when important token correlations are multiple hops away. To
combine advantages of both the efficiency of sparse transformer and the
expressiveness of full-attention Transformer, we propose \textit{Diffuser}, a
new state-of-the-art efficient Transformer. Diffuser incorporates all token
interactions within one attention layer while maintaining low computation and
memory costs. The key idea is to expand the receptive field of sparse attention
using Attention Diffusion, which computes multi-hop token correlations based on
all paths between corresponding disconnected tokens, besides attention among
neighboring tokens. Theoretically, we show the expressiveness of Diffuser as a
universal sequence approximator for sequence-to-sequence modeling, and
investigate its ability to approximate full-attention by analyzing the graph
expander property from the spectral perspective. Experimentally, we investigate
the effectiveness of Diffuser with extensive evaluations, including language
modeling, image modeling, and Long Range Arena (LRA). Evaluation results show
that Diffuser achieves improvements by an average of 0.94% on text
classification tasks and 2.30% on LRA, with 1.67$\times$ memory savings
compared to state-of-the-art benchmarks, which demonstrates superior
performance of Diffuser in both expressiveness and efficiency aspects.
- Abstract(参考訳): 効率的なトランスフォーマーは、サブクアドドラティックメモリと時間複雑性のため、長いシーケンスモデリングのために開発されてきた。
Sparse Transformerは、事前に定義されたスパースパターンによって指定された位置への自己アテンションを制限することで、Transformerの効率を改善するための一般的なアプローチである。
しかしながら、空間性を活用することは、重要なトークン相関が複数のホップから離れている場合、フルアテンションに比べて表現性を犠牲にする可能性がある。
スパース変圧器の効率性とフルアテンション変圧器の表現性を両立させるため,新しい最先端の変換器である \textit{Diffuser} を提案する。
Diffuserは、低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。
鍵となるアイデアは、注意拡散( attention diffusion)を使って、注意をそらすことの受容領域を広げることであり、これは、対応する切断されたトークン間のすべてのパスに基づいてマルチホップトークン相関を計算する。
理論的には、ディフューザの表現性はシーケンス・ツー・シーケンスモデリングの普遍列近似器として示し、スペクトルの観点からグラフ展開特性を解析し、全接触を近似する能力について検討する。
本研究では,ディフューザの有効性を,言語モデリング,画像モデリング,長距離アリーナ(lra)など幅広い評価で検証した。
評価の結果、ディフューザはテキスト分類タスクでは平均0.94%、lraでは2.30%の改善を達成し、最先端のベンチマークと比べて1.67$\times$のメモリ節約を実現している。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Random Feature Attention [69.4671822971207]
ソフトマックス関数を近似するためにランダム特徴法を用いる線形時間空間アテンション RFA を提案する。
RFAは、従来のソフトマックスアテンションのドロップイン代替として使用することができ、オプションのゲーティング機構を通じて、遅延バイアスで直接学習する方法を提供する。
言語モデリングと機械翻訳の実験は、RFAが強力なトランスのベースラインと類似またはより良いパフォーマンスを達成することを実証します。
論文 参考訳(メタデータ) (2021-03-03T02:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。