論文の概要: Video-based Cross-modal Auxiliary Network for Multimodal Sentiment
Analysis
- arxiv url: http://arxiv.org/abs/2208.13954v1
- Date: Tue, 30 Aug 2022 02:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 13:44:47.550631
- Title: Video-based Cross-modal Auxiliary Network for Multimodal Sentiment
Analysis
- Title(参考訳): マルチモーダル感性分析のためのビデオベースクロスモーダル補助ネットワーク
- Authors: Rongfei Chen, Wenju Zhou, Yang Li, Huiyu Zhou
- Abstract要約: 音声特徴マップモジュールとクロスモーダル選択モジュールから構成されるビデオベースクロスモーダル補助ネットワーク(VCAN)を提案する。
VCANは、マルチモーダル感情分析の分類精度を向上させる最先端の手法よりもはるかに優れている。
- 参考スコア(独自算出の注目度): 16.930624128228658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis has a wide range of applications due to its
information complementarity in multimodal interactions. Previous works focus
more on investigating efficient joint representations, but they rarely consider
the insufficient unimodal features extraction and data redundancy of multimodal
fusion. In this paper, a Video-based Cross-modal Auxiliary Network (VCAN) is
proposed, which is comprised of an audio features map module and a cross-modal
selection module. The first module is designed to substantially increase
feature diversity in audio feature extraction, aiming to improve classification
accuracy by providing more comprehensive acoustic representations. To empower
the model to handle redundant visual features, the second module is addressed
to efficiently filter the redundant visual frames during integrating
audiovisual data. Moreover, a classifier group consisting of several image
classification networks is introduced to predict sentiment polarities and
emotion categories. Extensive experimental results on RAVDESS, CMU-MOSI, and
CMU-MOSEI benchmarks indicate that VCAN is significantly superior to the
state-of-the-art methods for improving the classification accuracy of
multimodal sentiment analysis.
- Abstract(参考訳): マルチモーダル感情分析は多モーダル相互作用における情報相補性のために幅広い応用がある。
以前の研究はより効率的な共同表現の研究に重点を置いているが、マルチモーダル融合の不十分なユニモーダル特徴抽出とデータ冗長性を考慮することは滅多にない。
本稿では,ビデオベースのクロスモーダル補助ネットワーク(VCAN)を提案し,音声特徴マップモジュールとクロスモーダル選択モジュールからなる。
最初のモジュールは、より包括的な音響表現を提供することで分類精度を向上させることを目的として、音声特徴抽出における特徴多様性を大幅に向上させるように設計されている。
冗長な視覚的特徴を扱うために、第2のモジュールは、オーディオ視覚データを統合する際に、冗長な視覚的フレームを効率的にフィルタリングする。
さらに、複数の画像分類ネットワークからなる分類器群を導入し、感情極性と感情カテゴリを予測する。
RAVDESS、CMU-MOSI、CMU-MOSEIベンチマークの大規模な実験結果から、VCANはマルチモーダル感情分析の分類精度を向上させる最先端の手法よりもはるかに優れていることが示唆された。
関連論文リスト
- Improving Multimodal Sentiment Analysis: Supervised Angular Margin-based
Contrastive Learning for Enhanced Fusion Representation [10.44888349041063]
マルチモーダル・センティメント・アナリティクスのためのコントラシブ・ラーニング・フレームワークであるSupervised Angularを導入する。
この枠組みは,マルチモーダル表現の識別と一般化性を高め,融合ベクトルのモダリティのバイアスを克服することを目的としている。
論文 参考訳(メタデータ) (2023-12-04T02:58:19Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional
Emotion Recognition [57.766837326063346]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Accelerated Multi-Modal MR Imaging with Transformers [92.18406564785329]
MR画像の高速化のためのマルチモーダルトランス(MTrans)を提案する。
トランスアーキテクチャを再構築することで、MTransは深いマルチモーダル情報をキャプチャする強力な能力を得ることができる。
i)MTransはマルチモーダルMRイメージングに改良されたトランスフォーマーを使用する最初の試みであり、CNNベースの手法と比較してよりグローバルな情報を提供する。
論文 参考訳(メタデータ) (2021-06-27T15:01:30Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - A Discriminative Vectorial Framework for Multi-modal Feature
Representation [19.158947368297557]
知識発見におけるマルチモーダル特徴表現のための識別フレームワークを提案する。
マルチモーダルハッシュ(MH)と識別相関(DCM)分析を採用しています。
このフレームワークは最先端統計機械学習(s.m.)よりも優れている。
そしてディープネットワークニューラルネットワーク(DNN)アルゴリズム。
論文 参考訳(メタデータ) (2021-03-09T18:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。