論文の概要: Video-based Cross-modal Auxiliary Network for Multimodal Sentiment
Analysis
- arxiv url: http://arxiv.org/abs/2208.13954v1
- Date: Tue, 30 Aug 2022 02:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 13:44:47.550631
- Title: Video-based Cross-modal Auxiliary Network for Multimodal Sentiment
Analysis
- Title(参考訳): マルチモーダル感性分析のためのビデオベースクロスモーダル補助ネットワーク
- Authors: Rongfei Chen, Wenju Zhou, Yang Li, Huiyu Zhou
- Abstract要約: 音声特徴マップモジュールとクロスモーダル選択モジュールから構成されるビデオベースクロスモーダル補助ネットワーク(VCAN)を提案する。
VCANは、マルチモーダル感情分析の分類精度を向上させる最先端の手法よりもはるかに優れている。
- 参考スコア(独自算出の注目度): 16.930624128228658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis has a wide range of applications due to its
information complementarity in multimodal interactions. Previous works focus
more on investigating efficient joint representations, but they rarely consider
the insufficient unimodal features extraction and data redundancy of multimodal
fusion. In this paper, a Video-based Cross-modal Auxiliary Network (VCAN) is
proposed, which is comprised of an audio features map module and a cross-modal
selection module. The first module is designed to substantially increase
feature diversity in audio feature extraction, aiming to improve classification
accuracy by providing more comprehensive acoustic representations. To empower
the model to handle redundant visual features, the second module is addressed
to efficiently filter the redundant visual frames during integrating
audiovisual data. Moreover, a classifier group consisting of several image
classification networks is introduced to predict sentiment polarities and
emotion categories. Extensive experimental results on RAVDESS, CMU-MOSI, and
CMU-MOSEI benchmarks indicate that VCAN is significantly superior to the
state-of-the-art methods for improving the classification accuracy of
multimodal sentiment analysis.
- Abstract(参考訳): マルチモーダル感情分析は多モーダル相互作用における情報相補性のために幅広い応用がある。
以前の研究はより効率的な共同表現の研究に重点を置いているが、マルチモーダル融合の不十分なユニモーダル特徴抽出とデータ冗長性を考慮することは滅多にない。
本稿では,ビデオベースのクロスモーダル補助ネットワーク(VCAN)を提案し,音声特徴マップモジュールとクロスモーダル選択モジュールからなる。
最初のモジュールは、より包括的な音響表現を提供することで分類精度を向上させることを目的として、音声特徴抽出における特徴多様性を大幅に向上させるように設計されている。
冗長な視覚的特徴を扱うために、第2のモジュールは、オーディオ視覚データを統合する際に、冗長な視覚的フレームを効率的にフィルタリングする。
さらに、複数の画像分類ネットワークからなる分類器群を導入し、感情極性と感情カテゴリを予測する。
RAVDESS、CMU-MOSI、CMU-MOSEIベンチマークの大規模な実験結果から、VCANはマルチモーダル感情分析の分類精度を向上させる最先端の手法よりもはるかに優れていることが示唆された。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Few-Shot Medical Image Segmentation with Large Kernel Attention [5.630842216128902]
本稿では,包括的特徴表現能力を持つ数ショットの医用セグメンテーションモデルを提案する。
本モデルは,2経路特徴抽出器,アテンションモジュール,適応型プロトタイプ予測モジュール,マルチスケール予測融合モジュールの4つの重要なモジュールから構成される。
その結果,本手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-07-27T02:28:30Z) - Modality-agnostic Domain Generalizable Medical Image Segmentation by Multi-Frequency in Multi-Scale Attention [1.1155836879100416]
医用画像セグメンテーションのためのModality-Agnostic Domain Generalizable Network (MADGNet)を提案する。
MFMSAブロックは空間的特徴抽出の過程を洗練させる。
E-SDMは、深い監督を伴うマルチタスク学習における情報損失を軽減する。
論文 参考訳(メタデータ) (2024-05-10T07:34:36Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Accelerated Multi-Modal MR Imaging with Transformers [92.18406564785329]
MR画像の高速化のためのマルチモーダルトランス(MTrans)を提案する。
トランスアーキテクチャを再構築することで、MTransは深いマルチモーダル情報をキャプチャする強力な能力を得ることができる。
i)MTransはマルチモーダルMRイメージングに改良されたトランスフォーマーを使用する最初の試みであり、CNNベースの手法と比較してよりグローバルな情報を提供する。
論文 参考訳(メタデータ) (2021-06-27T15:01:30Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - A Discriminative Vectorial Framework for Multi-modal Feature
Representation [19.158947368297557]
知識発見におけるマルチモーダル特徴表現のための識別フレームワークを提案する。
マルチモーダルハッシュ(MH)と識別相関(DCM)分析を採用しています。
このフレームワークは最先端統計機械学習(s.m.)よりも優れている。
そしてディープネットワークニューラルネットワーク(DNN)アルゴリズム。
論文 参考訳(メタデータ) (2021-03-09T18:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。