Fugu-MT 論文翻訳(概要): Video-based Cross-modal Auxiliary Network for Multimodal Sentiment Analysis

論文の概要: Video-based Cross-modal Auxiliary Network for Multimodal Sentiment Analysis

arxiv url: http://arxiv.org/abs/2208.13954v1
Date: Tue, 30 Aug 2022 02:08:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-31 13:44:47.550631
Title: Video-based Cross-modal Auxiliary Network for Multimodal Sentiment Analysis
Title（参考訳）: マルチモーダル感性分析のためのビデオベースクロスモーダル補助ネットワーク
Authors: Rongfei Chen, Wenju Zhou, Yang Li, Huiyu Zhou
Abstract要約: 音声特徴マップモジュールとクロスモーダル選択モジュールから構成されるビデオベースクロスモーダル補助ネットワーク(VCAN)を提案する。 VCANは、マルチモーダル感情分析の分類精度を向上させる最先端の手法よりもはるかに優れている。
参考スコア（独自算出の注目度）: 16.930624128228658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal sentiment analysis has a wide range of applications due to its information complementarity in multimodal interactions. Previous works focus more on investigating efficient joint representations, but they rarely consider the insufficient unimodal features extraction and data redundancy of multimodal fusion. In this paper, a Video-based Cross-modal Auxiliary Network (VCAN) is proposed, which is comprised of an audio features map module and a cross-modal selection module. The first module is designed to substantially increase feature diversity in audio feature extraction, aiming to improve classification accuracy by providing more comprehensive acoustic representations. To empower the model to handle redundant visual features, the second module is addressed to efficiently filter the redundant visual frames during integrating audiovisual data. Moreover, a classifier group consisting of several image classification networks is introduced to predict sentiment polarities and emotion categories. Extensive experimental results on RAVDESS, CMU-MOSI, and CMU-MOSEI benchmarks indicate that VCAN is significantly superior to the state-of-the-art methods for improving the classification accuracy of multimodal sentiment analysis.
Abstract（参考訳）: マルチモーダル感情分析は多モーダル相互作用における情報相補性のために幅広い応用がある。以前の研究はより効率的な共同表現の研究に重点を置いているが、マルチモーダル融合の不十分なユニモーダル特徴抽出とデータ冗長性を考慮することは滅多にない。本稿では,ビデオベースのクロスモーダル補助ネットワーク(VCAN)を提案し,音声特徴マップモジュールとクロスモーダル選択モジュールからなる。最初のモジュールは、より包括的な音響表現を提供することで分類精度を向上させることを目的として、音声特徴抽出における特徴多様性を大幅に向上させるように設計されている。冗長な視覚的特徴を扱うために、第2のモジュールは、オーディオ視覚データを統合する際に、冗長な視覚的フレームを効率的にフィルタリングする。さらに、複数の画像分類ネットワークからなる分類器群を導入し、感情極性と感情カテゴリを予測する。 RAVDESS、CMU-MOSI、CMU-MOSEIベンチマークの大規模な実験結果から、VCANはマルチモーダル感情分析の分類精度を向上させる最先端の手法よりもはるかに優れていることが示唆された。

関連論文リスト

AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion [44.45109614673675]
視覚と音声の両モードからテキストや特徴を抽出する検索システムを構築した。 MMMORRFは効率的かつ効果的であり、ユーザの情報要求に基づいてビデオ検索の実用性を示す。
論文参考訳（メタデータ） (2025-03-26T16:28:04Z)
Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文参考訳（メタデータ） (2025-03-14T08:31:21Z)
XR-VLM: Cross-Relationship Modeling with Multi-part Prompts and Visual Features for Fine-Grained Recognition [20.989787824067143]
XR-VLMは、相互関係をモデル化することによって微妙な違いを発見する新しいメカニズムである。マルチパースペクティブな記述をキャプチャするマルチパート・プロンプト学習モジュールを開発した。提案手法は,現在の最先端手法と比較して,大幅な改善を実現している。
論文参考訳（メタデータ） (2025-03-10T08:58:05Z)
Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
Few-Shot Medical Image Segmentation with Large Kernel Attention [5.630842216128902]
本稿では,包括的特徴表現能力を持つ数ショットの医用セグメンテーションモデルを提案する。本モデルは,2経路特徴抽出器,アテンションモジュール,適応型プロトタイプ予測モジュール,マルチスケール予測融合モジュールの4つの重要なモジュールから構成される。その結果,本手法が最先端性能を実現することを示す。
論文参考訳（メタデータ） (2024-07-27T02:28:30Z)
Modality-agnostic Domain Generalizable Medical Image Segmentation by Multi-Frequency in Multi-Scale Attention [1.1155836879100416]
医用画像セグメンテーションのためのModality-Agnostic Domain Generalizable Network (MADGNet)を提案する。 MFMSAブロックは空間的特徴抽出の過程を洗練させる。 E-SDMは、深い監督を伴うマルチタスク学習における情報損失を軽減する。
論文参考訳（メタデータ） (2024-05-10T07:34:36Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文参考訳（メタデータ） (2023-09-18T11:06:42Z)
Abstractive Sentence Summarization with Guidance of Selective Multimodal Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文参考訳（メタデータ） (2021-08-11T09:59:34Z)
Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2021-06-30T22:44:12Z)
Accelerated Multi-Modal MR Imaging with Transformers [92.18406564785329]
MR画像の高速化のためのマルチモーダルトランス(MTrans)を提案する。トランスアーキテクチャを再構築することで、MTransは深いマルチモーダル情報をキャプチャする強力な能力を得ることができる。 i)MTransはマルチモーダルMRイメージングに改良されたトランスフォーマーを使用する最初の試みであり、CNNベースの手法と比較してよりグローバルな情報を提供する。
論文参考訳（メタデータ） (2021-06-27T15:01:30Z)
Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。 EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。 4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2021-05-05T02:27:25Z)
A Discriminative Vectorial Framework for Multi-modal Feature Representation [19.158947368297557]
知識発見におけるマルチモーダル特徴表現のための識別フレームワークを提案する。マルチモーダルハッシュ(MH)と識別相関(DCM)分析を採用しています。このフレームワークは最先端統計機械学習(s.m.)よりも優れている。そしてディープネットワークニューラルネットワーク(DNN)アルゴリズム。
論文参考訳（メタデータ） (2021-03-09T18:18:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。