論文の概要: Cascaded Head-colliding Attention
- arxiv url: http://arxiv.org/abs/2105.14850v1
- Date: Mon, 31 May 2021 10:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 02:13:23.468539
- Title: Cascaded Head-colliding Attention
- Title(参考訳): Cascaded Head-colliding Attention
- Authors: Lin Zheng, Zhiyong Wu, Lingpeng Kong
- Abstract要約: トランスフォーマーは、様々な重要なタスクにおいて自然言語処理(NLP)の分野を進歩させてきた。
本稿では, 階層的変動分布を通して, 注目頭部間の相互作用を明示的にモデル化するCODA(Cascaded Head-colliding attention)を提案する。
- 参考スコア(独自算出の注目度): 28.293881246428377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have advanced the field of natural language processing (NLP) on
a variety of important tasks. At the cornerstone of the Transformer
architecture is the multi-head attention (MHA) mechanism which models pairwise
interactions between the elements of the sequence. Despite its massive success,
the current framework ignores interactions among different heads, leading to
the problem that many of the heads are redundant in practice, which greatly
wastes the capacity of the model. To improve parameter efficiency, we
re-formulate the MHA as a latent variable model from a probabilistic
perspective. We present cascaded head-colliding attention (CODA) which
explicitly models the interactions between attention heads through a
hierarchical variational distribution. We conduct extensive experiments and
demonstrate that CODA outperforms the transformer baseline, by $0.6$ perplexity
on \texttt{Wikitext-103} in language modeling, and by $0.6$ BLEU on
\texttt{WMT14 EN-DE} in machine translation, due to its improvements on the
parameter efficiency.\footnote{Our implementation is publicly available at
\url{https://github.com/LZhengisme/CODA}.}
- Abstract(参考訳): トランスフォーマーは、様々な重要なタスクで自然言語処理(nlp)の分野を進歩させた。
Transformerアーキテクチャの基盤には、シーケンスの各要素間の相互相互作用をモデル化するマルチヘッドアテンション(MHA)機構がある。
その大きな成功にもかかわらず、現在のフレームワークは異なるヘッド間の相互作用を無視しており、多くのヘッドが実際には冗長であるため、モデルのキャパシティを大幅に無駄にしている。
パラメータ効率を向上させるため,確率論的観点からMHAを潜在変数モデルとして再定式化する。
本稿では, 階層的変動分布を通して, 注目頭部間の相互作用を明示的にモデル化するCODA(Cascaded Head-colliding attention)を提案する。
我々は、CODA が言語モデリングにおいて \texttt{Wikitext-103} で 0.6$ perplexity を、パラメータ効率の改善により BLEU on \texttt{WMT14 EN-DE} で 0.6$ BLEU を上回り、その実装は \url{https://github.com/LZhengisme/CODA} で公開されています。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Improving Transformers with Dynamically Composable Multi-Head Attention [0.4999814847776097]
MHA(Multi-Head Attention)はTransformerの重要なコンポーネントである。
パラメータとして動的に構成可能なマルチヘッドアテンション(DCMHA)を提案する。
DCMHAは、任意のトランスアーキテクチャにおけるMHAのドロップイン置換として使用することができ、対応するDCFormerを得ることができる。
論文 参考訳(メタデータ) (2024-05-14T12:41:11Z) - Probabilistic Topic Modelling with Transformer Representations [0.9999629695552195]
トランスフォーマー表現型ニューラルトピックモデル(TNTM)を提案する。
このアプローチは、完全に確率論的モデリングを伴うトランスフォーマー埋め込みに基づくトピックの強力で汎用的な概念を統一する。
実験の結果,提案手法は組込みコヒーレンスの観点から,様々な最先端手法に匹敵する結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-06T14:27:29Z) - Mixture of Attention Heads: Selecting Attention Heads Per Token [40.04159325505842]
Mixture of Attention Heads (MoA)は、マルチヘッドアテンションとMoEメカニズムを組み合わせた新しいアーキテクチャである。
MoAは、標準的なマルチヘッドアテンション層よりも強力なパフォーマンスを実現している。
MoAはまた、ヘッドのユーティリティを自動的に区別し、モデルの解釈可能性について議論するための新しい視点を提供する。
論文 参考訳(メタデータ) (2022-10-11T04:54:05Z) - Learning Multiscale Transformer Models for Sequence Generation [33.73729074207944]
単語境界情報と句レベルの事前知識に基づいて,スケール間の関係を確立することで,マルチスケールトランスフォーマーモデルを構築する。
特に、いくつかのテストセットにおいて、効率を犠牲にすることなく、強いベースラインに対して一貫したパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2022-06-19T07:28:54Z) - Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-14T17:37:47Z) - VisBERT: Hidden-State Visualizations for Transformers [66.86452388524886]
VisBERTは,複数の質問応答のタスクに対して,BERT内のコンテキストトークン表現を可視化するツールである。
VisBERTは、モデルの内部状態に関する洞察を得て、推論ステップや潜在的な欠点を探索することを可能にする。
論文 参考訳(メタデータ) (2020-11-09T15:37:43Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。