論文の概要: Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding
- arxiv url: http://arxiv.org/abs/2009.06097v2
- Date: Mon, 7 Jun 2021 06:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 02:58:52.843602
- Title: Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding
- Title(参考訳): Cluster-Former:長距離依存性符号化のためのクラスタリングベーススパーストランス
- Authors: Shuohang Wang, Luowei Zhou, Zhe Gan, Yen-Chun Chen, Yuwei Fang, Siqi
Sun, Yu Cheng, Jingjing Liu
- Abstract要約: Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 90.77031668988661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has become ubiquitous in the deep learning field. One of the key
ingredients that destined its success is the self-attention mechanism, which
allows fully-connected contextual encoding over input tokens. However, despite
its effectiveness in modeling short sequences, self-attention suffers when
handling inputs with extreme long-range dependencies, as its complexity grows
quadratically with respect to the sequence length. Therefore, long sequences
are often encoded by Transformer in chunks using a sliding window. In this
paper, we propose Cluster-Former, a novel clustering-based sparse Transformer
to perform attention across chunked sequences. The proposed framework is
pivoted on two unique types of Transformer layer: Sliding-Window Layer and
Cluster-Former Layer, which encode local sequence information and global
context jointly and iteratively. This new design allows information integration
beyond local windows, which is especially beneficial for question answering
(QA) tasks that rely on long-range dependencies. Experiments show that
Cluster-Former achieves state-of-the-art performance on several major QA
benchmarks.
- Abstract(参考訳): Transformerはディープラーニングの分野でユビキタスになりつつある。
その成功を運命付ける重要な要素の1つは、入力トークン上で完全に接続されたコンテキストエンコーディングを可能にする自己保持機構である。
しかし、ショートシーケンスのモデリングに効果があるにもかかわらず、その複雑さはシーケンス長に関して2次的に増加するため、極端な長距離依存性を持つ入力を扱う際に自己注意が苦しむ。
したがって、長いシーケンスはスライディングウィンドウを使用して、トランスフォーマーによってチャンクにエンコードされることが多い。
本稿では,チャンク列にまたがって注意を喚起する,クラスタリングベースの新しいスパーストランスであるcluster-formerを提案する。
提案手法は,スライディングウィンドウ層とクラスタフォーマ層という,局所的なシーケンス情報とグローバルコンテキストを協調的かつ反復的にエンコードするトランスフォーマ層を特徴とする。
この新設計により、ローカルウィンドウ以外の情報統合が可能になり、特に長距離依存に依存する質問応答(QA)タスクに有用である。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - ConvTimeNet: A Deep Hierarchical Fully Convolutional Model for
Multivariate Time Series Analysis [8.560776357590088]
ConvTimeNetは、時系列解析のための汎用モデルとして設計された、新しい階層的完全畳み込みネットワークである。
結果は、ほとんどの状況において、有効性という点で、一貫して強いベースラインを上回りました。
論文 参考訳(メタデータ) (2024-03-03T12:05:49Z) - CAST: Clustering Self-Attention using Surrogate Tokens for Efficient
Transformers [3.129187821625805]
本稿では,Surrogate Tokens (CAST) を用いたクラスタリング自己注意機構を提案する。
CASTは複雑性を$O(N2)$から$O(アルファN)$に減らして効率を向上する。
論文 参考訳(メタデータ) (2024-02-06T18:47:52Z) - Fovea Transformer: Efficient Long-Context Modeling with Structured
Fine-to-Coarse Attention [17.48544285026157]
長文集中型変換器であるFovea Transformerを紹介する。
問合せトークンへの距離が増加するにつれて、木に徐々に粗い粒度を持つコンテキストトークンの表現を使用する。
3つの長文要約タスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2023-11-13T06:24:27Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Efficient Long Sequence Encoding via Synchronization [29.075962393432857]
階層符号化のための同期機構を提案する。
我々のアプローチはまずセグメント間でアンカートークンを識別し、元の入力シーケンスでの役割によってグループ化する。
我々のアプローチは、効率を保ちながらセグメント間のグローバル情報交換を改善することができる。
論文 参考訳(メタデータ) (2022-03-15T04:37:02Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。