論文の概要: End-to-end Semantic-centric Video-based Multimodal Affective Computing
- arxiv url: http://arxiv.org/abs/2408.07694v1
- Date: Wed, 14 Aug 2024 17:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 12:43:33.261374
- Title: End-to-end Semantic-centric Video-based Multimodal Affective Computing
- Title(参考訳): エンド・ツー・エンドのセマンティック・ビデオ中心型マルチモーダル・アフェクティブ・コンピューティング
- Authors: Ronghao Lin, Ying Zeng, Sijie Mai, Haifeng Hu,
- Abstract要約: 本稿では,セマンティックMAC(SemanticMAC)という新しいエンドツーエンドフレームワークを提案する。
我々は、マルチモーダルデータ前処理とAffective Perceiverモジュールの設計において、事前学習したTransformerモデルを用いて、非モーダル感情情報をキャプチャする。
セマンティックMACは意味中心ラベルのガイダンスにおいて、特定の意味表現と共有意味表現を効果的に学習する。
- 参考スコア(独自算出の注目度): 27.13963885724786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the pathway toward Artificial General Intelligence (AGI), understanding human's affection is essential to enhance machine's cognition abilities. For achieving more sensual human-AI interaction, Multimodal Affective Computing (MAC) in human-spoken videos has attracted increasing attention. However, previous methods are mainly devoted to designing multimodal fusion algorithms, suffering from two issues: semantic imbalance caused by diverse pre-processing operations and semantic mismatch raised by inconsistent affection content contained in different modalities comparing with the multimodal ground truth. Besides, the usage of manual features extractors make they fail in building end-to-end pipeline for multiple MAC downstream tasks. To address above challenges, we propose a novel end-to-end framework named SemanticMAC to compute multimodal semantic-centric affection for human-spoken videos. We firstly employ pre-trained Transformer model in multimodal data pre-processing and design Affective Perceiver module to capture unimodal affective information. Moreover, we present a semantic-centric approach to unify multimodal representation learning in three ways, including gated feature interaction, multi-task pseudo label generation, and intra-/inter-sample contrastive learning. Finally, SemanticMAC effectively learn specific- and shared-semantic representations in the guidance of semantic-centric labels. Extensive experimental results demonstrate that our approach surpass the state-of-the-art methods on 7 public datasets in four MAC downstream tasks.
- Abstract(参考訳): 人工知能(AGI)への道では、人間の愛情を理解することが機械の認知能力を高めるために不可欠である。
マルチモーダル・アフェクティブ・コンピューティング(MAC)は,よりセンセーショナルな人間とAIのインタラクションを実現するために注目されている。
しかし、従来の手法は主にマルチモーダル融合アルゴリズムの設計に特化しており、多様な前処理操作によって生じる意味的不均衡と、多モーダル基底真理と比較して異なるモダリティに含まれる不一致な愛情コンテンツによって引き起こされる意味的ミスマッチの2つの問題に悩まされている。
さらに、手動機能抽出器の使用により、複数のMACダウンストリームタスクのためのエンドツーエンドパイプラインの構築に失敗する。
上記の課題に対処するために,人間に触発されたビデオに対するマルチモーダルなセマンティック中心の愛情を計算するための,セマンティックMACという新しいエンドツーエンドフレームワークを提案する。
我々はまず,マルチモーダルデータ前処理とAffective Perceiverモジュールの設計において,事前学習したTransformerモデルを用いて,非モーダル感情情報をキャプチャする。
さらに,マルチモーダル表現学習を3つの方法で統合する意味中心型アプローチを提案する。
最後に、セマンティックMACは意味中心ラベルのガイダンスにおいて、特定のセマンティック表現と共有セマンティック表現を効果的に学習する。
提案手法は,4つのMACダウンストリームタスクにおいて,7つの公開データセットの最先端手法を超越していることを示す。
関連論文リスト
- DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - MU-MAE: Multimodal Masked Autoencoders-Based One-Shot Learning [3.520960737058199]
マルチモーダルマスクオートエンコに基づくワンショット学習(Mu-MAE)を紹介する。
Mu-MAEは、マルチモーダルマスク付きオートエンコーダと、ウェアラブルセンサー用に調整された同期マスク戦略を統合している。
追加データを用いることなく、最大80.17%の精度で5方向のワンショット・マルチモーダル分類を実現している。
論文 参考訳(メタデータ) (2024-08-08T06:16:00Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition [6.995226697189459]
In-the-wildビデオデータから表情認識のためのマルチモーダル自己教師学習手法を用いる。
以上の結果から,マルチモーダル・セルフ・スーパービジョン・タスクが課題に対して大きなパフォーマンス向上をもたらすことが示唆された。
トレーニング済みのモデルとソースコードを公開しています。
論文 参考訳(メタデータ) (2024-04-16T20:51:36Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition [34.424960016807795]
マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。
知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
論文 参考訳(メタデータ) (2023-05-05T19:26:06Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Virtual Multi-Modality Self-Supervised Foreground Matting for
Human-Object Interaction [18.14237514372724]
本稿では,仮想マルチモーダル・フォアグラウンド・マッティング(VMFM)手法を提案する。
VMFMメソッドはトリマップや既知のバックグラウンドなどの追加入力を必要としない。
我々は,前景マッティングを自己監督型マルチモーダリティ問題として再構成する。
論文 参考訳(メタデータ) (2021-10-07T09:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。