論文の概要: Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation
- arxiv url: http://arxiv.org/abs/2205.07100v1
- Date: Sat, 14 May 2022 17:37:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 15:10:08.079478
- Title: Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation
- Title(参考訳): Multiformer: 直接音声翻訳のための頭部構成可能なトランスフォーマモデル
- Authors: Gerard Sant, Gerard I. G\'allego, Belen Alastruey, Marta R.
Costa-Juss\`a
- Abstract要約: MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have been achieving state-of-the-art results in
several fields of Natural Language Processing. However, its direct application
to speech tasks is not trivial. The nature of this sequences carries problems
such as long sequence lengths and redundancy between adjacent tokens.
Therefore, we believe that regular self-attention mechanism might not be well
suited for it.
Different approaches have been proposed to overcome these problems, such as
the use of efficient attention mechanisms. However, the use of these methods
usually comes with a cost, which is a performance reduction caused by
information loss. In this study, we present the Multiformer, a
Transformer-based model which allows the use of different attention mechanisms
on each head. By doing this, the model is able to bias the self-attention
towards the extraction of more diverse token interactions, and the information
loss is reduced. Finally, we perform an analysis of the head contributions, and
we observe that those architectures where all heads relevance is uniformly
distributed obtain better results. Our results show that mixing attention
patterns along the different heads and layers outperforms our baseline by up to
0.7 BLEU.
- Abstract(参考訳): トランスフォーマーベースのモデルは、自然言語処理のいくつかの分野で最先端の結果を達成している。
しかし、音声タスクへの直接適用は簡単ではない。
この配列の性質は、長いシーケンス長や隣接するトークン間の冗長性といった問題をもたらす。
したがって, 正規の自己着脱機構は, あまり適さないと考えられる。
効率的な注意機構の使用など、これらの問題を克服するための様々なアプローチが提案されている。
しかし、これらの手法の使用には通常、情報損失による性能低下であるコストが伴う。
本研究では,各頭部に異なる注意機構を適用できるトランスフォーマモデルであるmultiformerを提案する。
これにより、モデルがより多様なトークンインタラクションの抽出に向けて自己注意を偏らせ、情報損失を低減できる。
最後に,頭部コントリビューションの分析を行い,全ての頭部関連性が均一に分布しているアーキテクチャがより良い結果が得られることを観察する。
以上の結果から,異なる頭部と層に沿った注意パターンの混合は,最大0.7BLEUでベースラインを上回った。
関連論文リスト
- Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers [16.26331213222281]
アーキテクチャ設計の選択がトランスフォーマーが実装し学習できるソリューションの空間にどのように影響するかを検討する。
小型変圧器が理論的に実装できる2つの異なる計数戦略を特徴付ける。
簡単な設定であっても、モデル設計のわずかなバリエーションは、トランスフォーマーが学習するソリューションに大きな変化をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-07-16T09:48:10Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z) - Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion
Recognition? [36.67937514793215]
クロスモーダル・アテンションはマルチモーダル核融合の有効なメカニズムであると考えられている。
クロスアテンションモデルと自己アテンションモデルを実装し,比較する。
7クラス感情分類タスクにおいて,異なるモードの組み合わせを用いたモデルの比較を行った。
論文 参考訳(メタデータ) (2022-02-18T15:44:14Z) - Assessing the Impact of Attention and Self-Attention Mechanisms on the
Classification of Skin Lesions [0.0]
注意モジュールと自己注意という,2種類の注意機構に注目した。
注意モジュールは各層入力テンソルの特徴を再重み付けするために使用される。
自己認識(Self-Attention)は、元々自然言語処理の分野で提案されていたもので、入力シーケンス内のすべての項目を関連付けることができる。
論文 参考訳(メタデータ) (2021-12-23T18:02:48Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - Cascaded Head-colliding Attention [28.293881246428377]
トランスフォーマーは、様々な重要なタスクにおいて自然言語処理(NLP)の分野を進歩させてきた。
本稿では, 階層的変動分布を通して, 注目頭部間の相互作用を明示的にモデル化するCODA(Cascaded Head-colliding attention)を提案する。
論文 参考訳(メタデータ) (2021-05-31T10:06:42Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。