論文の概要: Sliceformer: Make Multi-head Attention as Simple as Sorting in
Discriminative Tasks
- arxiv url: http://arxiv.org/abs/2310.17683v1
- Date: Thu, 26 Oct 2023 14:43:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 16:14:07.110447
- Title: Sliceformer: Make Multi-head Attention as Simple as Sorting in
Discriminative Tasks
- Title(参考訳): sliceformer: 判別タスクのソートのように、マルチヘッドの注意をシンプルにする
- Authors: Shen Yuan and Hongteng Xu
- Abstract要約: 我々は,Sliceformerと呼ばれるトランスフォーマーの効果的かつ効率的なサロゲートを提案する。
我々のスライスフォーマーは、従来のMHA機構を極めて単純なスライシングソーシングの操作で置き換える。
我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。
- 参考スコア(独自算出の注目度): 32.33355192614434
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As one of the most popular neural network modules, Transformer plays a
central role in many fundamental deep learning models, e.g., the ViT in
computer vision and the BERT and GPT in natural language processing. The
effectiveness of the Transformer is often attributed to its multi-head
attention (MHA) mechanism. In this study, we discuss the limitations of MHA,
including the high computational complexity due to its ``query-key-value''
architecture and the numerical issue caused by its softmax operation.
Considering the above problems and the recent development tendency of the
attention layer, we propose an effective and efficient surrogate of the
Transformer, called Sliceformer. Our Sliceformer replaces the classic MHA
mechanism with an extremely simple ``slicing-sorting'' operation, i.e.,
projecting inputs linearly to a latent space and sorting them along different
feature dimensions (or equivalently, called channels). For each feature
dimension, the sorting operation implicitly generates an implicit attention map
with sparse, full-rank, and doubly-stochastic structures. We consider different
implementations of the slicing-sorting operation and analyze their impacts on
the Sliceformer. We test the Sliceformer in the Long-Range Arena benchmark,
image classification, text classification, and molecular property prediction,
demonstrating its advantage in computational complexity and universal
effectiveness in discriminative tasks. Our Sliceformer achieves comparable or
better performance with lower memory cost and faster speed than the Transformer
and its variants. Moreover, the experimental results reveal that applying our
Sliceformer can empirically suppress the risk of mode collapse when
representing data. The code is available at
\url{https://github.com/SDS-Lab/sliceformer}.
- Abstract(参考訳): 最も人気のあるニューラルネットワークモジュールの1つであるTransformerは、コンピュータビジョンのViTや自然言語処理のBERTやGPTなど、多くの基本的なディープラーニングモデルにおいて中心的な役割を果たす。
Transformerの有効性は、MHA(Multi-head attention)メカニズムによることが多い。
本研究では,'query-key-value'アーキテクチャによる計算複雑性の増大や,そのソフトマックス演算による数値問題など,MHAの限界について論じる。
以上の問題と近年の注目層の発展傾向を踏まえ,スライスフォーマと呼ばれるトランスフォーマの効果的かつ効率的なサロゲートを提案する。
我々のスライスフォーマーは古典的なMHA機構を極めて単純な「スライシング・ソート」演算で置き換える、すなわち、入力を潜在空間に線形に射影し、異なる特徴次元(すなわちチャンネルと呼ばれる)に沿ってソートする。
各特徴次元について、ソート操作は暗黙的にスパース、フルランク、二重確率構造を持つ暗黙の注意マップを生成する。
我々はスライシングソート操作の異なる実装を検討し、スライスフォーマーへの影響を分析する。
画像分類,テキスト分類,分子特性予測においてスライスフォームをテストし,計算複雑性および識別タスクにおける普遍的有効性を示す。
我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。
また,sliceformerの適用は,データ表現時のモード崩壊のリスクを経験的に抑制できることを示した。
コードは \url{https://github.com/sds-lab/sliceformer} で入手できる。
関連論文リスト
- How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Extension of Transformational Machine Learning: Classification Problems [0.0]
本研究では、薬物発見における変換機械学習(TML)の適用と性能について検討する。
メタ学習アルゴリズムであるTMLは、さまざまなドメインにまたがる共通属性の活用に優れています。
薬物発見プロセスは複雑で時間を要するが、予測精度の増大から大きな恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-08-07T07:34:18Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Learning from partially labeled data for multi-organ and tumor
segmentation [102.55303521877933]
本稿では,トランスフォーマーに基づく動的オンデマンドネットワーク(TransDoDNet)を提案する。
動的ヘッドにより、ネットワークは複数のセグメンテーションタスクを柔軟に達成することができる。
我々はMOTSと呼ばれる大規模にラベル付けされたMulti-Organ and tumorベンチマークを作成し、他の競合相手よりもTransDoDNetの方が優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-13T13:03:09Z) - Rethinking Attention Mechanism in Time Series Classification [6.014777261874646]
我々は、フレキシブル・マルチヘッド・リニア・アテンション(FMLA)を提案することにより、アテンション機構の効率性と性能を向上する。
本稿では,時系列におけるノイズの影響を低減し,FMLAの冗長性を低減できる簡易だが効果的なマスク機構を提案する。
85のUCR2018データセットを用いて、このアルゴリズムを11のよく知られたデータセットと比較し、このアルゴリズムがトップ1の精度で同等の性能を持つことを示す。
論文 参考訳(メタデータ) (2022-07-14T07:15:06Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z) - H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for
Sequences [16.59989033959959]
本稿では,トランスフォーマーアーキテクチャにおける注目度を計算するための効率的な階層的手法について述べる。
提案手法は,Long Range Arenaベンチマークにおいて,平均で+6点以上の代替準四進法よりも優れている。
また、One-Billion Wordデータセットに新しいSOTAテストパープレキシティを設定し、5倍のモデルパラメータを前回のベストなTransformerベースのモデルと比較する。
論文 参考訳(メタデータ) (2021-07-25T23:07:03Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - THG: Transformer with Hyperbolic Geometry [8.895324519034057]
X-former"モデルは、自己注意の2次時間とメモリの複雑さにのみ変更を加える。
ユークリッド空間と双曲空間の両方の利点を生かした,双曲幾何モデル(THG)を提案する。
論文 参考訳(メタデータ) (2021-06-01T14:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。