Fugu-MT 論文翻訳(概要): Improving Transformers with Dynamically Composable Multi-Head Attention

論文の概要: Improving Transformers with Dynamically Composable Multi-Head Attention

arxiv url: http://arxiv.org/abs/2405.08553v2
Date: Tue, 4 Jun 2024 14:49:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 09:12:28.945466
Title: Improving Transformers with Dynamically Composable Multi-Head Attention
Title（参考訳）: 動的に構成可能なマルチヘッドアテンションによる変圧器の改良
Authors: Da Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan,
Abstract要約: MHA(Multi-Head Attention)はTransformerの重要なコンポーネントである。パラメータとして動的に構成可能なマルチヘッドアテンション(DCMHA)を提案する。 DCMHAは、任意のトランスアーキテクチャにおけるMHAのドロップイン置換として使用することができ、対応するDCFormerを得ることができる。
参考スコア（独自算出の注目度）: 0.4999814847776097
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-Head Attention (MHA) is a key component of Transformer. In MHA, attention heads work independently, causing problems such as low-rank bottleneck of attention score matrices and head redundancy. We propose Dynamically Composable Multi-Head Attention (DCMHA), a parameter and computation efficient attention architecture that tackles the shortcomings of MHA and increases the expressive power of the model by dynamically composing attention heads. At the core of DCMHA is a $\it{Compose}$ function that transforms the attention score and weight matrices in an input-dependent way. DCMHA can be used as a drop-in replacement of MHA in any transformer architecture to obtain the corresponding DCFormer. DCFormer significantly outperforms Transformer on different architectures and model scales in language modeling, matching the performance of models with ~1.7x-2.0x compute. For example, DCPythia-6.9B outperforms open source Pythia-12B on both pretraining perplexity and downstream task evaluation. The code and models are available at https://github.com/Caiyun-AI/DCFormer.
Abstract（参考訳）: MHA(Multi-Head Attention)はTransformerの重要なコンポーネントである。 MHAでは、アテンションヘッドは独立して動作し、アテンションスコア行列の低ランクボトルネックやヘッド冗長といった問題を引き起こす。本稿では、MHAの欠点に対処し、動的にアテンションヘッドを構成することでモデルの表現力を高めるパラメータと計算効率のよいアテンションアーキテクチャである動的構成可能マルチヘッドアテンション(DCMHA)を提案する。 DCMHAの中核には$\it{Compose}$関数があり、入力依存の方法で注目点と重み行列を変換する。 DCMHAは、任意のトランスアーキテクチャにおけるMHAのドロップイン置換として使用することができ、対応するDCFormerを得ることができる。 DCFormerはトランスフォーマーを言語モデリングにおける異なるアーキテクチャやモデルスケールで大きく上回り、モデルの性能を1.7x-2.0x計算と比較した。例えば、DCPythia-6.9Bは、事前訓練されたパープレキシティと下流タスク評価の両方で、オープンソースのPythia-12Bを上回っている。コードとモデルはhttps://github.com/Caiyun-AI/DCFormer.comで入手できる。

関連論文リスト

Tensor Product Attention Is All You Need [53.69820973900921]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。 TPAは、メモリ効率とともに改善されたモデル品質を実現する。 TPAに基づいて、シーケンスモデリングのための新しいモデルアーキテクチャであるProduct Attention Transformer(T6)を紹介する。
論文参考訳（メタデータ） (2025-01-11T03:37:10Z)
ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition [5.311735227179715]
動的ハンドジェスチャのための新しいConvMixFormerアーキテクチャを探索し,考案する。提案手法は,NVidia Dynamic Hand Gesture と Briareo のデータセットを用いて評価する。我々のモデルは、単一およびマルチモーダル入力に対して最先端の結果を得た。
論文参考訳（メタデータ） (2024-11-11T16:45:18Z)
Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。 Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-08-19T17:48:11Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。 ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation [11.334990474402915]
本稿では,CNNの階層的特徴抽出能力とTransformerのグローバル依存性モデリング機能を組み合わせたモデルであるHAFormerを紹介する。 HAFormerは計算オーバーヘッドを最小限に抑え、コンパクトなモデルサイズで高性能を実現する。
論文参考訳（メタデータ） (2024-07-10T07:53:24Z)
Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文参考訳（メタデータ） (2024-05-30T11:11:54Z)
DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。 DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文参考訳（メタデータ） (2023-09-04T08:26:47Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。 nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文参考訳（メタデータ） (2021-09-07T17:08:24Z)
ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文参考訳（メタデータ） (2021-06-07T05:31:06Z)
Cascaded Head-colliding Attention [28.293881246428377]
トランスフォーマーは、様々な重要なタスクにおいて自然言語処理(NLP)の分野を進歩させてきた。本稿では, 階層的変動分布を通して, 注目頭部間の相互作用を明示的にモデル化するCODA(Cascaded Head-colliding attention)を提案する。
論文参考訳（メタデータ） (2021-05-31T10:06:42Z)
Stochastic Attention Head Removal: A simple and effective method for improving Transformer Based ASR Models [40.991809705930955]
トレーニング中に無作為にアテンションヘッドを取り除き、全てのアテンションヘッドをテスト時に保持し、最終モデルは異なるアーキテクチャを持つモデルのアンサンブルである。提案手法は,ウォールストリートジャーナル,AISHELL,Switchboard,AMIデータセットにおいて,強力なベースラインよりも一貫したパフォーマンス向上を実現する。
論文参考訳（メタデータ） (2020-11-08T15:41:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。