論文の概要: Improving Transformers with Dynamically Composable Multi-Head Attention
- arxiv url: http://arxiv.org/abs/2405.08553v2
- Date: Tue, 4 Jun 2024 14:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 09:12:28.945466
- Title: Improving Transformers with Dynamically Composable Multi-Head Attention
- Title(参考訳): 動的に構成可能なマルチヘッドアテンションによる変圧器の改良
- Authors: Da Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan,
- Abstract要約: MHA(Multi-Head Attention)はTransformerの重要なコンポーネントである。
パラメータとして動的に構成可能なマルチヘッドアテンション(DCMHA)を提案する。
DCMHAは、任意のトランスアーキテクチャにおけるMHAのドロップイン置換として使用することができ、対応するDCFormerを得ることができる。
- 参考スコア(独自算出の注目度): 0.4999814847776097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Head Attention (MHA) is a key component of Transformer. In MHA, attention heads work independently, causing problems such as low-rank bottleneck of attention score matrices and head redundancy. We propose Dynamically Composable Multi-Head Attention (DCMHA), a parameter and computation efficient attention architecture that tackles the shortcomings of MHA and increases the expressive power of the model by dynamically composing attention heads. At the core of DCMHA is a $\it{Compose}$ function that transforms the attention score and weight matrices in an input-dependent way. DCMHA can be used as a drop-in replacement of MHA in any transformer architecture to obtain the corresponding DCFormer. DCFormer significantly outperforms Transformer on different architectures and model scales in language modeling, matching the performance of models with ~1.7x-2.0x compute. For example, DCPythia-6.9B outperforms open source Pythia-12B on both pretraining perplexity and downstream task evaluation. The code and models are available at https://github.com/Caiyun-AI/DCFormer.
- Abstract(参考訳): MHA(Multi-Head Attention)はTransformerの重要なコンポーネントである。
MHAでは、アテンションヘッドは独立して動作し、アテンションスコア行列の低ランクボトルネックやヘッド冗長といった問題を引き起こす。
本稿では、MHAの欠点に対処し、動的にアテンションヘッドを構成することでモデルの表現力を高めるパラメータと計算効率のよいアテンションアーキテクチャである動的構成可能マルチヘッドアテンション(DCMHA)を提案する。
DCMHAの中核には$\it{Compose}$関数があり、入力依存の方法で注目点と重み行列を変換する。
DCMHAは、任意のトランスアーキテクチャにおけるMHAのドロップイン置換として使用することができ、対応するDCFormerを得ることができる。
DCFormerはトランスフォーマーを言語モデリングにおける異なるアーキテクチャやモデルスケールで大きく上回り、モデルの性能を1.7x-2.0x計算と比較した。
例えば、DCPythia-6.9Bは、事前訓練されたパープレキシティと下流タスク評価の両方で、オープンソースのPythia-12Bを上回っている。
コードとモデルはhttps://github.com/Caiyun-AI/DCFormer.comで入手できる。
関連論文リスト
- ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition [5.311735227179715]
動的ハンドジェスチャのための新しいConvMixFormerアーキテクチャを探索し,考案する。
提案手法は,NVidia Dynamic Hand Gesture と Briareo のデータセットを用いて評価する。
我々のモデルは、単一およびマルチモーダル入力に対して最先端の結果を得た。
論文 参考訳(メタデータ) (2024-11-11T16:45:18Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation [11.334990474402915]
本稿では,CNNの階層的特徴抽出能力とTransformerのグローバル依存性モデリング機能を組み合わせたモデルであるHAFormerを紹介する。
HAFormerは計算オーバーヘッドを最小限に抑え、コンパクトなモデルサイズで高性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T07:53:24Z) - Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。
我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。
このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文 参考訳(メタデータ) (2024-05-30T11:11:54Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Cascaded Head-colliding Attention [28.293881246428377]
トランスフォーマーは、様々な重要なタスクにおいて自然言語処理(NLP)の分野を進歩させてきた。
本稿では, 階層的変動分布を通して, 注目頭部間の相互作用を明示的にモデル化するCODA(Cascaded Head-colliding attention)を提案する。
論文 参考訳(メタデータ) (2021-05-31T10:06:42Z) - Stochastic Attention Head Removal: A simple and effective method for
improving Transformer Based ASR Models [40.991809705930955]
トレーニング中に無作為にアテンションヘッドを取り除き、全てのアテンションヘッドをテスト時に保持し、最終モデルは異なるアーキテクチャを持つモデルのアンサンブルである。
提案手法は,ウォールストリートジャーナル,AISHELL,Switchboard,AMIデータセットにおいて,強力なベースラインよりも一貫したパフォーマンス向上を実現する。
論文 参考訳(メタデータ) (2020-11-08T15:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。