論文の概要: Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos
- arxiv url: http://arxiv.org/abs/2206.07981v2
- Date: Fri, 17 Jun 2022 02:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 10:34:38.254250
- Title: Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos
- Title(参考訳): ビデオにおけるマルチモーダル感情分析のためのマルチスケール協調マルチモーダルトランスフォーマ
- Authors: Lianyang Ma, Yu Yao, Tao Liang, Tongliang Liu
- Abstract要約: マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
- 参考スコア(独自算出の注目度): 58.93586436289648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis in videos is a key task in many real-world
applications, which usually requires integrating multimodal streams including
visual, verbal and acoustic behaviors. To improve the robustness of multimodal
fusion, some of the existing methods let different modalities communicate with
each other and modal the crossmodal interaction via transformers. However,
these methods only use the single-scale representations during the interaction
but forget to exploit multi-scale representations that contain different levels
of semantic information. As a result, the representations learned by
transformers could be biased especially for unaligned multimodal data. In this
paper, we propose a multi-scale cooperative multimodal transformer (MCMulT)
architecture for multimodal sentiment analysis. On the whole, the "multi-scale"
mechanism is capable of exploiting the different levels of semantic information
of each modality which are used for fine-grained crossmodal interactions.
Meanwhile, each modality learns its feature hierarchies via integrating the
crossmodal interactions from multiple level features of its source modality. In
this way, each pair of modalities progressively builds feature hierarchies
respectively in a cooperative manner. The empirical results illustrate that our
MCMulT model not only outperforms existing approaches on unaligned multimodal
sequences but also has strong performance on aligned multimodal sequences.
- Abstract(参考訳): ビデオにおけるマルチモーダル感情分析は、多くの現実世界アプリケーションにおいて重要なタスクであり、視覚、言語、音響的振る舞いを含むマルチモーダルストリームを統合する必要がある。
マルチモーダル核融合の堅牢性を改善するために、既存手法のいくつかは異なるモーダルを相互に通信させ、トランスフォーマーを介して相互モーダル相互作用を変調する。
しかし、これらの手法は相互作用中にのみ単一スケール表現を使用するが、異なるレベルの意味情報を含むマルチスケール表現を利用することを忘れる。
その結果、トランスフォーマーによって学習される表現は、特に不整列マルチモーダルデータに対して偏りがある。
本稿では,マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
全体として、"マルチスケール"メカニズムは、細粒度のクロスモーダル相互作用に使用される各モダリティの意味情報の異なるレベルを利用することができる。
一方、各モダリティは、元のモダリティの複数のレベル特徴からのクロスモーダル相互作用を統合することによって特徴階層を学習する。
このように、それぞれのモダリティのペアはそれぞれ協調的な方法で機能階層を段階的に構築する。
実験の結果,mcmultモデルが既存のマルチモーダル配列のアプローチよりも優れているだけでなく,マルチモーダル配列のアライメントの性能も高いことがわかった。
関連論文リスト
- Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [79.9201824151389]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用して、マルチモーダル情報を統合する。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - AttX: Attentive Cross-Connections for Fusion of Wearable Signals in
Emotion Recognition [15.21696076393078]
クロスモーダル注意接続は、ウェアラブルデータからマルチモーダル表現学習のための新しい動的かつ効果的な技術である。
我々は、WASAD、SWELL-KW、CASEの3つの公共マルチモーダルウェアラブルデータセットについて広範な実験を行った。
提案手法は,最先端の手法よりも優れた,あるいは競争的な性能を示し,ベースラインのユニモーダル法や古典的マルチモーダル法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-09T17:18:33Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - Cross-modal Learning for Multi-modal Video Categorization [24.61762520189921]
マルチモーダル機械学習(ML)モデルは、複数のモーダルでデータを処理できる。
本稿では,マルチモーダルML技術を用いたビデオ分類の問題に焦点をあてる。
本稿では,クロスモーダル学習によるマルチモーダルビデオ分類モデルが,最先端のベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-03-07T03:21:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。