論文の概要: Hierachical Delta-Attention Method for Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2011.10916v1
- Date: Sun, 22 Nov 2020 02:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 08:52:06.327868
- Title: Hierachical Delta-Attention Method for Multimodal Fusion
- Title(参考訳): マルチモーダル核融合のためのヒエラチカルデルタアテンション法
- Authors: Kunjal Panchal
- Abstract要約: デルタ自在のモダリティを通して表現される感情のグローバルなビューを得るためのクロスアテンション融合技術。
この研究は、ほぼ半分のパラメータを持つ現在の最先端技術に近い、全体およびクラスごとの分類の競合精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In vision and linguistics; the main input modalities are facial expressions,
speech patterns, and the words uttered. The issue with analysis of any one mode
of expression (Visual, Verbal or Vocal) is that lot of contextual information
can get lost. This asks researchers to inspect multiple modalities to get a
thorough understanding of the cross-modal dependencies and temporal context of
the situation to analyze the expression. This work attempts at preserving the
long-range dependencies within and across different modalities, which would be
bottle-necked by the use of recurrent networks and adds the concept of
delta-attention to focus on local differences per modality to capture the
idiosyncrasy of different people. We explore a cross-attention fusion technique
to get the global view of the emotion expressed through these
delta-self-attended modalities, in order to fuse all the local nuances and
global context together. The addition of attention is new to the multi-modal
fusion field and currently being scrutinized for on what stage the attention
mechanism should be used, this work achieves competitive accuracy for overall
and per-class classification which is close to the current state-of-the-art
with almost half number of parameters.
- Abstract(参考訳): 視覚と言語学において、主な入力モダリティは表情、発話パターン、発話された単語である。
あらゆる1つの表現モード(視覚、言語、音声)の分析に関する問題は、多くの文脈情報が失われる可能性があることである。
これにより、研究者は複数のモダリティを検査し、相互依存と状況の時間的文脈を深く理解し、表現を分析する。
この研究は、異なるモダリティ内および異なるモダリティ間の長距離依存関係の保存を試みており、リカレントネットワークの使用によってボトルネック化され、デルタアテンションの概念を追加して、モダリティ毎の局所的な差異に注目して、異なる人の慣用的な同期を捉える。
我々は,すべての局所ニュアンスとグローバルコンテキストを融合させるために,これらのデルタ・アタッチド・モダリティを通じて表現される感情の全体像を得るためのクロスアテンション融合手法を検討する。
注意の付加は、マルチモーダル核融合分野において新しく、現在、注意機構のどの段階を使うべきかについて精査されており、ほぼ半分のパラメータを持つ現在の最先端技術に近い、全体およびクラスごとの分類において、競争の正確性を達成する。
関連論文リスト
- Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。
本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文 参考訳(メタデータ) (2024-08-30T03:28:40Z) - Robust Domain Generalization for Multi-modal Object Recognition [14.128747255526012]
マルチラベル分類において、機械学習は、トレーニングデータから異なる分布でタスクを処理する際に、ドメインの一般化の課題に直面する。
視覚言語プレトレーニングの最近の進歩は、広範囲にわたる視覚言語ペアの監視を活用し、多様なドメインでの学習を可能にしている。
本稿では、実際の損失を推定し、より大きな視覚言語バックボーンに対する評価を拡大し、Mixup-CLIPoodを導入することで解決策を提案する。
論文 参考訳(メタデータ) (2024-08-11T17:13:21Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Conversation Understanding using Relational Temporal Graph Neural
Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。
我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。
CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2023-11-08T07:46:25Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Cross-Modal Generalization: Learning in Low Resource Modalities via
Meta-Alignment [99.29153138760417]
クロスモーダル一般化は、ターゲットのモダリティにおいて、新しいタスクを迅速に実行できるモデルを訓練する学習パラダイムである。
我々は、異なるソースとターゲットのモダリティに対して異なるエンコーダを使用しながら、モダリティをまたいだ一般化を確保するにはどうすればよいのかという重要な研究課題について研究する。
メタアライメント(メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライ
論文 参考訳(メタデータ) (2020-12-04T19:27:26Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z) - Multimodal Routing: Improving Local and Global Interpretability of
Multimodal Language Analysis [103.69656907534456]
人間中心のタスクに強いパフォーマンスを持つ最近のマルチモーダル学習は、しばしばブラックボックスである。
本稿では,各入力サンプルに対して,入力モダリティと出力表現の重み付けを異なる方法で調整するマルチモーダルルーティングを提案する。
論文 参考訳(メタデータ) (2020-04-29T13:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。