Fugu-MT 論文翻訳(概要): EIT: Enhanced Interactive Transformer

論文の概要: EIT: Enhanced Interactive Transformer

arxiv url: http://arxiv.org/abs/2212.10197v1
Date: Tue, 20 Dec 2022 12:16:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 15:30:09.533064
Title: EIT: Enhanced Interactive Transformer
Title（参考訳）: EIT: インタラクティブトランスの強化
Authors: Tong Zheng, Bei Li, Huiwen Bao, Tong Xiao, Jingbo Zhu
Abstract要約: 本手法は,従来のマルチヘッド自己注意機構をEMHA(Enhanced Multi-Head Attention)機構に置き換える。本研究では,EMHAの多対多マッピング機能を完全に活用するために,内部空間相互作用と相互空間相互作用という2つの相互作用モデルを導入する。
参考スコア（独自算出の注目度）: 36.19491587539126
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a novel architecture, the Enhanced Interactive Transformer (EIT), to address the issue of head degradation in self-attention mechanisms. Our approach replaces the traditional multi-head self-attention mechanism with the Enhanced Multi-Head Attention (EMHA) mechanism, which relaxes the one-to-one mapping constraint among queries and keys, allowing each query to attend to multiple keys. Furthermore, we introduce two interaction models, Inner-Subspace Interaction and Cross-Subspace Interaction, to fully utilize the many-to-many mapping capabilities of EMHA. Extensive experiments on a wide range of tasks (e.g. machine translation, abstractive summarization, grammar correction, language modelling and brain disease automatic diagnosis) show its superiority with a very modest increase in model size.
Abstract（参考訳）: 本稿では,自己着脱機構における頭部劣化問題に対処するため,新しいアーキテクチャである拡張型インタラクティブトランス(eit)を提案する。本手法では,クエリとキー間の1対1のマッピング制約を緩和し,各クエリが複数のキーに応答できるようにするマルチヘッドアテンション(emha)機構を,従来のマルチヘッドセルフアテンション機構に置き換える。さらに、EMHAの多対多マッピング機能を完全に活用するために、内部空間相互作用と相互空間相互作用という2つの相互作用モデルを導入する。幅広いタスク(機械翻訳、抽象的な要約、文法修正、言語モデリング、脳疾患自動診断など)に対する広範な実験は、モデルサイズが非常に緩やかな増加とともにその優位性を示している。

関連論文リスト

Multi-modal Mutual-Guidance Conditional Prompt Learning for Vision-Language Models [21.20658517302458]
MuGCP (Multi-modal Mutual-Guidance Conditional Prompt Learning) は、条件付きプロンプト生成のための新しいパラダイムである。 AMGモジュールはVisual Conditional Prompts (VCP)を生成し、マルチモーダルタスクにおけるモデルの性能を向上させる。 MPFメカニズムは、SCPとVCPを文脈的プロンプトと統合し、シームレスな調整を保証する。
論文参考訳（メタデータ） (2025-07-11T08:45:27Z)
Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment [6.614005142754584]
ユニバーサルスパースオートエンコーダ(英: Universal Sparse Autoencoders、USAEs)は、複数のディープニューラルネットワークにまたがる解釈可能な概念を明らかにするためのフレームワークである。 USAEは、複数のモデルの内部アクティベーションを一度に再構築し解釈できる普遍的な概念空間を学ぶ。
論文参考訳（メタデータ） (2025-02-06T02:06:16Z)
Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文参考訳（メタデータ） (2024-08-05T14:05:25Z)
Detecting Any Human-Object Interaction Relationship: Universal HOI Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文参考訳（メタデータ） (2023-11-07T08:27:32Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)
Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and Input [27.102030262319197]
共用視覚と言語表現学習のためのtextbfSwitch-BERT を提案し,モダリティミスマッチの問題に対処する。 Switch-BERTは、学習可能な層と層間相互作用を導入することでBERTアーキテクチャを拡張している。結果は、ViLBERT や UNITER といった代替アーキテクチャが特定のタスクに優れているのに対して、Switch-BERT は一貫して優れたパフォーマンスや同等のパフォーマンスを達成できることを示している。
論文参考訳（メタデータ） (2023-06-25T09:28:40Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文参考訳（メタデータ） (2023-06-16T08:13:41Z)
Holistic Interaction Transformer Network for Action Detection [15.667833703317124]
HIT"ネットワークは、RGBストリームとポーズストリームからなる総合的なバイモーダルフレームワークである。提案手法は,J-HMDB,UCF101-24,MultiSportsデータセットにおいて,従来の手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-23T10:19:37Z)
Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning [39.4394389642761]
本稿では,対話型対話を対話型プロトタイプに切り離すための新しい対話型On Pattern DisenTangling (OPT) 手法を提案する。 OPTは無関係な実体間のノイズの相互作用をフィルタリングしやすくし、一般化可能性や解釈可能性を大幅に向上させる。単一タスク,マルチタスク,ゼロショットのベンチマーク実験により,提案手法が最先端のベンチマークよりも優れていることを示す。
論文参考訳（メタデータ） (2022-07-08T13:42:54Z)
MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文参考訳（メタデータ） (2022-01-25T22:30:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。