Fugu-MT 論文翻訳(概要): Sliceformer: Make Multi-head Attention as Simple as Sorting in Discriminative Tasks

論文の概要: Sliceformer: Make Multi-head Attention as Simple as Sorting in Discriminative Tasks

arxiv url: http://arxiv.org/abs/2310.17683v1
Date: Thu, 26 Oct 2023 14:43:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 16:14:07.110447
Title: Sliceformer: Make Multi-head Attention as Simple as Sorting in Discriminative Tasks
Title（参考訳）: sliceformer: 判別タスクのソートのように、マルチヘッドの注意をシンプルにする
Authors: Shen Yuan and Hongteng Xu
Abstract要約: 我々は,Sliceformerと呼ばれるトランスフォーマーの効果的かつ効率的なサロゲートを提案する。我々のスライスフォーマーは、従来のMHA機構を極めて単純なスライシングソーシングの操作で置き換える。我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。
参考スコア（独自算出の注目度）: 32.33355192614434
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As one of the most popular neural network modules, Transformer plays a central role in many fundamental deep learning models, e.g., the ViT in computer vision and the BERT and GPT in natural language processing. The effectiveness of the Transformer is often attributed to its multi-head attention (MHA) mechanism. In this study, we discuss the limitations of MHA, including the high computational complexity due to its ``query-key-value'' architecture and the numerical issue caused by its softmax operation. Considering the above problems and the recent development tendency of the attention layer, we propose an effective and efficient surrogate of the Transformer, called Sliceformer. Our Sliceformer replaces the classic MHA mechanism with an extremely simple ``slicing-sorting'' operation, i.e., projecting inputs linearly to a latent space and sorting them along different feature dimensions (or equivalently, called channels). For each feature dimension, the sorting operation implicitly generates an implicit attention map with sparse, full-rank, and doubly-stochastic structures. We consider different implementations of the slicing-sorting operation and analyze their impacts on the Sliceformer. We test the Sliceformer in the Long-Range Arena benchmark, image classification, text classification, and molecular property prediction, demonstrating its advantage in computational complexity and universal effectiveness in discriminative tasks. Our Sliceformer achieves comparable or better performance with lower memory cost and faster speed than the Transformer and its variants. Moreover, the experimental results reveal that applying our Sliceformer can empirically suppress the risk of mode collapse when representing data. The code is available at \url{https://github.com/SDS-Lab/sliceformer}.
Abstract（参考訳）: 最も人気のあるニューラルネットワークモジュールの1つであるTransformerは、コンピュータビジョンのViTや自然言語処理のBERTやGPTなど、多くの基本的なディープラーニングモデルにおいて中心的な役割を果たす。 Transformerの有効性は、MHA(Multi-head attention)メカニズムによることが多い。本研究では,'query-key-value'アーキテクチャによる計算複雑性の増大や,そのソフトマックス演算による数値問題など,MHAの限界について論じる。以上の問題と近年の注目層の発展傾向を踏まえ,スライスフォーマと呼ばれるトランスフォーマの効果的かつ効率的なサロゲートを提案する。我々のスライスフォーマーは古典的なMHA機構を極めて単純な「スライシング・ソート」演算で置き換える、すなわち、入力を潜在空間に線形に射影し、異なる特徴次元(すなわちチャンネルと呼ばれる)に沿ってソートする。各特徴次元について、ソート操作は暗黙的にスパース、フルランク、二重確率構造を持つ暗黙の注意マップを生成する。我々はスライシングソート操作の異なる実装を検討し、スライスフォーマーへの影響を分析する。画像分類,テキスト分類,分子特性予測においてスライスフォームをテストし,計算複雑性および識別タスクにおける普遍的有効性を示す。我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。また,sliceformerの適用は,データ表現時のモード崩壊のリスクを経験的に抑制できることを示した。コードは \url{https://github.com/sds-lab/sliceformer} で入手できる。

関連論文リスト

Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction [29.12836710966048]
本稿では,トークン数に応じて計算複雑性が線形にスケールする新しいトランスフォーマーアテンション演算子を提案する。本研究は, トランスフォーマーアーキテクチャの成功に対して, ペアワイズ類似性スタイルの注意機構が重要であるという従来の知恵に疑問を投げかけるものである。
論文参考訳（メタデータ） (2024-12-23T18:59:21Z)
MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers [43.39466934693055]
本稿では,新しい視点から計算複雑性(FLOP)を大幅に低減する,新しいトランスフォーマーアーキテクチャであるMemoryFormerを提案する。これは、完全連結層の線形射影を置き換えるために、特徴変換の代替手法を利用することで実現される。提案手法の有効性を示すため,様々なベンチマーク実験を行った。
論文参考訳（メタデータ） (2024-11-20T02:41:53Z)
Towards Better Multi-head Attention via Channel-wise Sample Permutation [27.36959595444929]
トランスフォーマーは、コンピュータビジョンにおけるViTや自然言語処理におけるBERTやGPTなど、多くの基本的なディープラーニングモデルにおいて中心的な役割を果たす。本稿では,より少ないパラメータと少ない複雑性を持つ新しい構造化MHAを実現するための,単純で斬新なチャネルワイドサンプル置換(CSP)演算子を提案する。
論文参考訳（メタデータ） (2024-10-14T06:28:40Z)
Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文参考訳（メタデータ） (2024-10-14T02:41:01Z)
DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文参考訳（メタデータ） (2024-10-07T07:21:49Z)
Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文参考訳（メタデータ） (2024-09-09T18:10:26Z)
Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文参考訳（メタデータ） (2024-06-10T13:25:43Z)
How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文参考訳（メタデータ） (2023-10-16T17:40:49Z)
Extension of Transformational Machine Learning: Classification Problems [0.0]
本研究では、薬物発見における変換機械学習(TML)の適用と性能について検討する。メタ学習アルゴリズムであるTMLは、さまざまなドメインにまたがる共通属性の活用に優れています。薬物発見プロセスは複雑で時間を要するが、予測精度の増大から大きな恩恵を受けることができる。
論文参考訳（メタデータ） (2023-08-07T07:34:18Z)
H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for Sequences [16.59989033959959]
本稿では,トランスフォーマーアーキテクチャにおける注目度を計算するための効率的な階層的手法について述べる。提案手法は,Long Range Arenaベンチマークにおいて,平均で+6点以上の代替準四進法よりも優れている。また、One-Billion Wordデータセットに新しいSOTAテストパープレキシティを設定し、5倍のモデルパラメータを前回のベストなTransformerベースのモデルと比較する。
論文参考訳（メタデータ） (2021-07-25T23:07:03Z)
Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文参考訳（メタデータ） (2021-07-12T22:43:11Z)
THG: Transformer with Hyperbolic Geometry [8.895324519034057]
X-former"モデルは、自己注意の2次時間とメモリの複雑さにのみ変更を加える。ユークリッド空間と双曲空間の両方の利点を生かした,双曲幾何モデル(THG)を提案する。
論文参考訳（メタデータ） (2021-06-01T14:09:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。