論文の概要: Sliceformer: Make Multi-head Attention as Simple as Sorting in
Discriminative Tasks
- arxiv url: http://arxiv.org/abs/2310.17683v1
- Date: Thu, 26 Oct 2023 14:43:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 16:14:07.110447
- Title: Sliceformer: Make Multi-head Attention as Simple as Sorting in
Discriminative Tasks
- Title(参考訳): sliceformer: 判別タスクのソートのように、マルチヘッドの注意をシンプルにする
- Authors: Shen Yuan and Hongteng Xu
- Abstract要約: 我々は,Sliceformerと呼ばれるトランスフォーマーの効果的かつ効率的なサロゲートを提案する。
我々のスライスフォーマーは、従来のMHA機構を極めて単純なスライシングソーシングの操作で置き換える。
我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。
- 参考スコア(独自算出の注目度): 32.33355192614434
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As one of the most popular neural network modules, Transformer plays a
central role in many fundamental deep learning models, e.g., the ViT in
computer vision and the BERT and GPT in natural language processing. The
effectiveness of the Transformer is often attributed to its multi-head
attention (MHA) mechanism. In this study, we discuss the limitations of MHA,
including the high computational complexity due to its ``query-key-value''
architecture and the numerical issue caused by its softmax operation.
Considering the above problems and the recent development tendency of the
attention layer, we propose an effective and efficient surrogate of the
Transformer, called Sliceformer. Our Sliceformer replaces the classic MHA
mechanism with an extremely simple ``slicing-sorting'' operation, i.e.,
projecting inputs linearly to a latent space and sorting them along different
feature dimensions (or equivalently, called channels). For each feature
dimension, the sorting operation implicitly generates an implicit attention map
with sparse, full-rank, and doubly-stochastic structures. We consider different
implementations of the slicing-sorting operation and analyze their impacts on
the Sliceformer. We test the Sliceformer in the Long-Range Arena benchmark,
image classification, text classification, and molecular property prediction,
demonstrating its advantage in computational complexity and universal
effectiveness in discriminative tasks. Our Sliceformer achieves comparable or
better performance with lower memory cost and faster speed than the Transformer
and its variants. Moreover, the experimental results reveal that applying our
Sliceformer can empirically suppress the risk of mode collapse when
representing data. The code is available at
\url{https://github.com/SDS-Lab/sliceformer}.
- Abstract(参考訳): 最も人気のあるニューラルネットワークモジュールの1つであるTransformerは、コンピュータビジョンのViTや自然言語処理のBERTやGPTなど、多くの基本的なディープラーニングモデルにおいて中心的な役割を果たす。
Transformerの有効性は、MHA(Multi-head attention)メカニズムによることが多い。
本研究では,'query-key-value'アーキテクチャによる計算複雑性の増大や,そのソフトマックス演算による数値問題など,MHAの限界について論じる。
以上の問題と近年の注目層の発展傾向を踏まえ,スライスフォーマと呼ばれるトランスフォーマの効果的かつ効率的なサロゲートを提案する。
我々のスライスフォーマーは古典的なMHA機構を極めて単純な「スライシング・ソート」演算で置き換える、すなわち、入力を潜在空間に線形に射影し、異なる特徴次元(すなわちチャンネルと呼ばれる)に沿ってソートする。
各特徴次元について、ソート操作は暗黙的にスパース、フルランク、二重確率構造を持つ暗黙の注意マップを生成する。
我々はスライシングソート操作の異なる実装を検討し、スライスフォーマーへの影響を分析する。
画像分類,テキスト分類,分子特性予測においてスライスフォームをテストし,計算複雑性および識別タスクにおける普遍的有効性を示す。
我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。
また,sliceformerの適用は,データ表現時のモード崩壊のリスクを経験的に抑制できることを示した。
コードは \url{https://github.com/sds-lab/sliceformer} で入手できる。
関連論文リスト
- MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers [43.39466934693055]
本稿では,新しい視点から計算複雑性(FLOP)を大幅に低減する,新しいトランスフォーマーアーキテクチャであるMemoryFormerを提案する。
これは、完全連結層の線形射影を置き換えるために、特徴変換の代替手法を利用することで実現される。
提案手法の有効性を示すため,様々なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-11-20T02:41:53Z) - Towards Better Multi-head Attention via Channel-wise Sample Permutation [27.36959595444929]
トランスフォーマーは、コンピュータビジョンにおけるViTや自然言語処理におけるBERTやGPTなど、多くの基本的なディープラーニングモデルにおいて中心的な役割を果たす。
本稿では,より少ないパラメータと少ない複雑性を持つ新しい構造化MHAを実現するための,単純で斬新なチャネルワイドサンプル置換(CSP)演算子を提案する。
論文 参考訳(メタデータ) (2024-10-14T06:28:40Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Extension of Transformational Machine Learning: Classification Problems [0.0]
本研究では、薬物発見における変換機械学習(TML)の適用と性能について検討する。
メタ学習アルゴリズムであるTMLは、さまざまなドメインにまたがる共通属性の活用に優れています。
薬物発見プロセスは複雑で時間を要するが、予測精度の増大から大きな恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-08-07T07:34:18Z) - H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for
Sequences [16.59989033959959]
本稿では,トランスフォーマーアーキテクチャにおける注目度を計算するための効率的な階層的手法について述べる。
提案手法は,Long Range Arenaベンチマークにおいて,平均で+6点以上の代替準四進法よりも優れている。
また、One-Billion Wordデータセットに新しいSOTAテストパープレキシティを設定し、5倍のモデルパラメータを前回のベストなTransformerベースのモデルと比較する。
論文 参考訳(メタデータ) (2021-07-25T23:07:03Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - THG: Transformer with Hyperbolic Geometry [8.895324519034057]
X-former"モデルは、自己注意の2次時間とメモリの複雑さにのみ変更を加える。
ユークリッド空間と双曲空間の両方の利点を生かした,双曲幾何モデル(THG)を提案する。
論文 参考訳(メタデータ) (2021-06-01T14:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。