論文の概要: EIT: Enhanced Interactive Transformer
- arxiv url: http://arxiv.org/abs/2212.10197v1
- Date: Tue, 20 Dec 2022 12:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:30:09.533064
- Title: EIT: Enhanced Interactive Transformer
- Title(参考訳): EIT: インタラクティブトランスの強化
- Authors: Tong Zheng, Bei Li, Huiwen Bao, Tong Xiao, Jingbo Zhu
- Abstract要約: 本手法は,従来のマルチヘッド自己注意機構をEMHA(Enhanced Multi-Head Attention)機構に置き換える。
本研究では,EMHAの多対多マッピング機能を完全に活用するために,内部空間相互作用と相互空間相互作用という2つの相互作用モデルを導入する。
- 参考スコア(独自算出の注目度): 36.19491587539126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel architecture, the Enhanced Interactive
Transformer (EIT), to address the issue of head degradation in self-attention
mechanisms. Our approach replaces the traditional multi-head self-attention
mechanism with the Enhanced Multi-Head Attention (EMHA) mechanism, which
relaxes the one-to-one mapping constraint among queries and keys, allowing each
query to attend to multiple keys. Furthermore, we introduce two interaction
models, Inner-Subspace Interaction and Cross-Subspace Interaction, to fully
utilize the many-to-many mapping capabilities of EMHA. Extensive experiments on
a wide range of tasks (e.g. machine translation, abstractive summarization,
grammar correction, language modelling and brain disease automatic diagnosis)
show its superiority with a very modest increase in model size.
- Abstract(参考訳): 本稿では,自己着脱機構における頭部劣化問題に対処するため,新しいアーキテクチャである拡張型インタラクティブトランス(eit)を提案する。
本手法では,クエリとキー間の1対1のマッピング制約を緩和し,各クエリが複数のキーに応答できるようにするマルチヘッドアテンション(emha)機構を,従来のマルチヘッドセルフアテンション機構に置き換える。
さらに、EMHAの多対多マッピング機能を完全に活用するために、内部空間相互作用と相互空間相互作用という2つの相互作用モデルを導入する。
幅広いタスク(機械翻訳、抽象的な要約、文法修正、言語モデリング、脳疾患自動診断など)に対する広範な実験は、モデルサイズが非常に緩やかな増加とともにその優位性を示している。
関連論文リスト
- Multimodal Embodied Interactive Agent for Cafe Scene [86.81802927029976]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
具体的には,シーンの視覚的記憶を介し,大規模モデルとの組込み制御を容易にする,新しいMultimodal Environment Memory (MEM) モジュールを提案する。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Switch-BERT: Learning to Model Multimodal Interactions by Switching
Attention and Input [27.102030262319197]
共用視覚と言語表現学習のためのtextbfSwitch-BERT を提案し,モダリティミスマッチの問題に対処する。
Switch-BERTは、学習可能な層と層間相互作用を導入することでBERTアーキテクチャを拡張している。
結果は、ViLBERT や UNITER といった代替アーキテクチャが特定のタスクに優れているのに対して、Switch-BERT は一貫して優れたパフォーマンスや同等のパフォーマンスを達成できることを示している。
論文 参考訳(メタデータ) (2023-06-25T09:28:40Z) - AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - DAE-Former: Dual Attention-guided Efficient Transformer for Medical
Image Segmentation [3.9548535445908928]
DAE-Formerは,自己認識機構を効率的に設計することで,新たな視点の提供を目指す新しい手法である。
本手法は, プレトレーニング重量を必要とせずに, 多臓器心病変と皮膚病変のセグメンテーションデータセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-12-27T14:39:39Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Cascaded Head-colliding Attention [28.293881246428377]
トランスフォーマーは、様々な重要なタスクにおいて自然言語処理(NLP)の分野を進歩させてきた。
本稿では, 階層的変動分布を通して, 注目頭部間の相互作用を明示的にモデル化するCODA(Cascaded Head-colliding attention)を提案する。
論文 参考訳(メタデータ) (2021-05-31T10:06:42Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。