論文の概要: Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos
- arxiv url: http://arxiv.org/abs/2206.07981v2
- Date: Fri, 17 Jun 2022 02:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 10:34:38.254250
- Title: Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos
- Title(参考訳): ビデオにおけるマルチモーダル感情分析のためのマルチスケール協調マルチモーダルトランスフォーマ
- Authors: Lianyang Ma, Yu Yao, Tao Liang, Tongliang Liu
- Abstract要約: マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
- 参考スコア(独自算出の注目度): 58.93586436289648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis in videos is a key task in many real-world
applications, which usually requires integrating multimodal streams including
visual, verbal and acoustic behaviors. To improve the robustness of multimodal
fusion, some of the existing methods let different modalities communicate with
each other and modal the crossmodal interaction via transformers. However,
these methods only use the single-scale representations during the interaction
but forget to exploit multi-scale representations that contain different levels
of semantic information. As a result, the representations learned by
transformers could be biased especially for unaligned multimodal data. In this
paper, we propose a multi-scale cooperative multimodal transformer (MCMulT)
architecture for multimodal sentiment analysis. On the whole, the "multi-scale"
mechanism is capable of exploiting the different levels of semantic information
of each modality which are used for fine-grained crossmodal interactions.
Meanwhile, each modality learns its feature hierarchies via integrating the
crossmodal interactions from multiple level features of its source modality. In
this way, each pair of modalities progressively builds feature hierarchies
respectively in a cooperative manner. The empirical results illustrate that our
MCMulT model not only outperforms existing approaches on unaligned multimodal
sequences but also has strong performance on aligned multimodal sequences.
- Abstract(参考訳): ビデオにおけるマルチモーダル感情分析は、多くの現実世界アプリケーションにおいて重要なタスクであり、視覚、言語、音響的振る舞いを含むマルチモーダルストリームを統合する必要がある。
マルチモーダル核融合の堅牢性を改善するために、既存手法のいくつかは異なるモーダルを相互に通信させ、トランスフォーマーを介して相互モーダル相互作用を変調する。
しかし、これらの手法は相互作用中にのみ単一スケール表現を使用するが、異なるレベルの意味情報を含むマルチスケール表現を利用することを忘れる。
その結果、トランスフォーマーによって学習される表現は、特に不整列マルチモーダルデータに対して偏りがある。
本稿では,マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
全体として、"マルチスケール"メカニズムは、細粒度のクロスモーダル相互作用に使用される各モダリティの意味情報の異なるレベルを利用することができる。
一方、各モダリティは、元のモダリティの複数のレベル特徴からのクロスモーダル相互作用を統合することによって特徴階層を学習する。
このように、それぞれのモダリティのペアはそれぞれ協調的な方法で機能階層を段階的に構築する。
実験の結果,mcmultモデルが既存のマルチモーダル配列のアプローチよりも優れているだけでなく,マルチモーダル配列のアライメントの性能も高いことがわかった。
関連論文リスト
- CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation [8.874033487493913]
会話におけるマルチモーダル感情認識は、会話発話中の感情を正確に識別することを目的としている。
CMATHと呼ばれる2つの主要成分から構成される階層的変分蒸留を用いたクロスモダリティ拡張変圧器を提案する。
IEMOCAPとMELDデータセットの実験により、提案したモデルが従来の最先端ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T09:23:02Z) - What to align in multimodal contrastive learning? [7.7439394183358745]
単一マルチモーダル空間におけるモダリティ間の通信を可能にするコントラスト型マルチモーダル学習戦略を導入する。
この定式化から,情報共有,相乗的,一意的な用語が自然に出現し,冗長性を超えたマルチモーダル相互作用を推定できることを示す。
後者では、CoMMは複雑なマルチモーダル相互作用を学び、6つのマルチモーダルベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-09-11T16:42:22Z) - Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multimodal Information Interaction for Medical Image Segmentation [24.024848382458767]
革新的マルチモーダル情報クロストランス(MicFormer)について紹介する。
あるモダリティから特徴を問合せし、対応する応答を別のモダリティから取り出し、バイモーダル特徴間の効果的なコミュニケーションを容易にする。
他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。
論文 参考訳(メタデータ) (2024-04-25T07:21:14Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。