論文の概要: Towards Better Multi-head Attention via Channel-wise Sample Permutation
- arxiv url: http://arxiv.org/abs/2410.10914v1
- Date: Mon, 14 Oct 2024 06:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:32.263791
- Title: Towards Better Multi-head Attention via Channel-wise Sample Permutation
- Title(参考訳): チャネルワイドサンプル置換によるマルチヘッドアテンション改善に向けて
- Authors: Shen Yuan, Hongteng Xu,
- Abstract要約: トランスフォーマーは、コンピュータビジョンにおけるViTや自然言語処理におけるBERTやGPTなど、多くの基本的なディープラーニングモデルにおいて中心的な役割を果たす。
本稿では,より少ないパラメータと少ない複雑性を持つ新しい構造化MHAを実現するための,単純で斬新なチャネルワイドサンプル置換(CSP)演算子を提案する。
- 参考スコア(独自算出の注目度): 27.36959595444929
- License:
- Abstract: Transformer plays a central role in many fundamental deep learning models, e.g., the ViT in computer vision and the BERT and GPT in natural language processing, whose effectiveness is mainly attributed to its multi-head attention (MHA) mechanism. In this study, we propose a simple and novel channel-wise sample permutation (CSP) operator, achieving a new structured MHA with fewer parameters and lower complexity. Given an input matrix, CSP circularly shifts the samples of different channels with various steps and then sorts grouped samples of each channel. This operator is equivalent to implicitly implementing cross-channel attention maps as permutation matrices, which achieves linear complexity and suppresses the risk of rank collapse when representing data. We replace the MHA of some representative models with CSP and test the CSP-based models in several discriminative tasks, including image classification and long sequence analysis. Experiments show that the CSP-based models achieve comparable or better performance with fewer parameters and lower computational costs than the classic Transformer and its state-of-the-art variants. The code is available at https://github.com/DaShenZi721/CSP.
- Abstract(参考訳): トランスフォーマーは、コンピュータビジョンにおけるViTや自然言語処理におけるBERTやGPTなど、多くの基本的なディープラーニングモデルにおいて中心的な役割を果たす。
本研究では,チャネルワイドサンプル置換(CSP)演算子を提案する。
入力行列が与えられた後、CSPは様々なステップで異なるチャネルのサンプルを円形にシフトし、各チャネルのグループ化されたサンプルをソートする。
この演算子は、置換行列としてチャネル横断アテンションマップを暗黙的に実装し、線形複雑性を実現し、データ表現時のランク崩壊のリスクを抑制する。
いくつかの代表モデルのMHAをCSPに置き換え、画像分類や長いシーケンス解析を含むいくつかの識別タスクでCSPベースのモデルをテストする。
実験により、CSPベースのモデルは、従来のTransformerとその最先端の変種よりも少ないパラメータと低い計算コストで同等またはより優れた性能を達成することが示された。
コードはhttps://github.com/DaShenZi721/CSPで公開されている。
関連論文リスト
- SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Sliceformer: Make Multi-head Attention as Simple as Sorting in
Discriminative Tasks [32.33355192614434]
我々は,Sliceformerと呼ばれるトランスフォーマーの効果的かつ効率的なサロゲートを提案する。
我々のスライスフォーマーは、従来のMHA機構を極めて単純なスライシングソーシングの操作で置き換える。
我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。
論文 参考訳(メタデータ) (2023-10-26T14:43:07Z) - ClaSP -- Parameter-free Time Series Segmentation [6.533695062182296]
時系列セグメンテーションのための新しい,高精度かつドメインに依存しない手法である ClaSP を提案する。
ClaSP は、TS を2つの部分に階層的に分割する。変更点は、可能な分割点ごとにバイナリTS分類器を訓練し、それぞれの分割からサブシーケンスを特定するのに最適な1つの分割を選択することによって決定される。
実験では,115データセットのベンチマークを用いて,ClaSPが精度で高い性能を示し,高速かつスケーラブルであることを示す。
論文 参考訳(メタデータ) (2022-07-28T10:05:53Z) - Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文 参考訳(メタデータ) (2022-03-31T11:18:41Z) - Rethinking Semantic Segmentation: A Prototype View [126.59244185849838]
学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。
我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。
この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
論文 参考訳(メタデータ) (2022-03-28T21:15:32Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。
DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。
本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文 参考訳(メタデータ) (2022-03-21T14:53:57Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。