論文の概要: Hierachical Delta-Attention Method for Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2011.10916v1
- Date: Sun, 22 Nov 2020 02:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 08:52:06.327868
- Title: Hierachical Delta-Attention Method for Multimodal Fusion
- Title(参考訳): マルチモーダル核融合のためのヒエラチカルデルタアテンション法
- Authors: Kunjal Panchal
- Abstract要約: デルタ自在のモダリティを通して表現される感情のグローバルなビューを得るためのクロスアテンション融合技術。
この研究は、ほぼ半分のパラメータを持つ現在の最先端技術に近い、全体およびクラスごとの分類の競合精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In vision and linguistics; the main input modalities are facial expressions,
speech patterns, and the words uttered. The issue with analysis of any one mode
of expression (Visual, Verbal or Vocal) is that lot of contextual information
can get lost. This asks researchers to inspect multiple modalities to get a
thorough understanding of the cross-modal dependencies and temporal context of
the situation to analyze the expression. This work attempts at preserving the
long-range dependencies within and across different modalities, which would be
bottle-necked by the use of recurrent networks and adds the concept of
delta-attention to focus on local differences per modality to capture the
idiosyncrasy of different people. We explore a cross-attention fusion technique
to get the global view of the emotion expressed through these
delta-self-attended modalities, in order to fuse all the local nuances and
global context together. The addition of attention is new to the multi-modal
fusion field and currently being scrutinized for on what stage the attention
mechanism should be used, this work achieves competitive accuracy for overall
and per-class classification which is close to the current state-of-the-art
with almost half number of parameters.
- Abstract(参考訳): 視覚と言語学において、主な入力モダリティは表情、発話パターン、発話された単語である。
あらゆる1つの表現モード(視覚、言語、音声)の分析に関する問題は、多くの文脈情報が失われる可能性があることである。
これにより、研究者は複数のモダリティを検査し、相互依存と状況の時間的文脈を深く理解し、表現を分析する。
この研究は、異なるモダリティ内および異なるモダリティ間の長距離依存関係の保存を試みており、リカレントネットワークの使用によってボトルネック化され、デルタアテンションの概念を追加して、モダリティ毎の局所的な差異に注目して、異なる人の慣用的な同期を捉える。
我々は,すべての局所ニュアンスとグローバルコンテキストを融合させるために,これらのデルタ・アタッチド・モダリティを通じて表現される感情の全体像を得るためのクロスアテンション融合手法を検討する。
注意の付加は、マルチモーダル核融合分野において新しく、現在、注意機構のどの段階を使うべきかについて精査されており、ほぼ半分のパラメータを持つ現在の最先端技術に近い、全体およびクラスごとの分類において、競争の正確性を達成する。
関連論文リスト
- AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Conversation Understanding using Relational Temporal Graph Neural
Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。
我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。
CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2023-11-08T07:46:25Z) - MIR-GAN: Refining Frame-Level Modality-Invariant Representations with
Adversarial Network for Audio-Visual Speech Recognition [23.042478625584653]
フレームレベルのモダリティ不変表現(MIR-GAN)を洗練するための逆ネットワークを提案する。
特に,フレームレベルのモダリティ不変表現(MIR-GAN)を洗練するための逆ネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-18T14:02:20Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Learning to Select Context in a Hierarchical and Global Perspective for
Open-domain Dialogue Generation [15.01710843286394]
階層的自己保持機構と遠隔監視を備えた新しいモデルを提案し、関連する単語と発話を短距離および長距離で検出する。
私たちのモデルは、流速、コヒーレンス、および情報性の観点から他のベースラインを大幅に上回ります。
論文 参考訳(メタデータ) (2021-02-18T11:56:42Z) - Cross-Modal Generalization: Learning in Low Resource Modalities via
Meta-Alignment [99.29153138760417]
クロスモーダル一般化は、ターゲットのモダリティにおいて、新しいタスクを迅速に実行できるモデルを訓練する学習パラダイムである。
我々は、異なるソースとターゲットのモダリティに対して異なるエンコーダを使用しながら、モダリティをまたいだ一般化を確保するにはどうすればよいのかという重要な研究課題について研究する。
メタアライメント(メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライ
論文 参考訳(メタデータ) (2020-12-04T19:27:26Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z) - Multimodal Routing: Improving Local and Global Interpretability of
Multimodal Language Analysis [103.69656907534456]
人間中心のタスクに強いパフォーマンスを持つ最近のマルチモーダル学習は、しばしばブラックボックスである。
本稿では,各入力サンプルに対して,入力モダリティと出力表現の重み付けを異なる方法で調整するマルチモーダルルーティングを提案する。
論文 参考訳(メタデータ) (2020-04-29T13:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。