Fugu-MT 論文翻訳(概要): Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice

論文の概要: Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice

arxiv url: http://arxiv.org/abs/2508.17502v1
Date: Sun, 24 Aug 2025 19:49:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-26 18:43:45.55841
Title: Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice
Title（参考訳）: Social-MAE: 顔と音声のためのトランスフォーマーベースのマルチモーダルオートエンコーダ
Authors: Hugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani,
Abstract要約: 我々は、Contrastive Audio-Visual Masked Auto-Encoder(CAV-MAE)の拡張版に基づく、事前訓練されたオーディオ視覚マスケオートエンコーダであるSocial-MAEを提案する。我々は、CAV-MAEを入力としてより多くのフレームを受け取るように修正し、人間の社会的相互作用のデータセット(VoxCeleb2)を自己管理的に事前訓練する。このモデルは,マルチモーダル感情認識と笑い認識の最先端結果と,明らかな性格推定のための競合結果を達成する。
参考スコア（独自算出の注目度）: 8.44136409474895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human social behaviors are inherently multimodal necessitating the development of powerful audiovisual models for their perception. In this paper, we present Social-MAE, our pre-trained audiovisual Masked Autoencoder based on an extended version of Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), which is pre-trained on audiovisual social data. Specifically, we modify CAV-MAE to receive a larger number of frames as input and pre-train it on a large dataset of human social interaction (VoxCeleb2) in a self-supervised manner. We demonstrate the effectiveness of this model by finetuning and evaluating the model on different social and affective downstream tasks, namely, emotion recognition, laughter detection and apparent personality estimation. The model achieves state-of-the-art results on multimodal emotion recognition and laughter recognition and competitive results for apparent personality estimation, demonstrating the effectiveness of in-domain self-supervised pre-training. Code and model weight are available here https://github.com/HuBohy/SocialMAE.
Abstract（参考訳）: 人間の社会的行動は本質的にマルチモーダルであり、その知覚に強力な視覚モデルの開発を必要とする。本稿では,コントラシブ・オーディオ・ビジュアル・マスケド・オートエンコーダ(CAV-MAE)の拡張版をベースとした,事前学習された音声視覚マスケド・オートエンコーダであるSocial-MAEを紹介する。具体的には、CAV-MAEを入力としてより多くのフレームを受け取るように修正し、人間の社会的相互作用のデータセット(VoxCeleb2)を自己管理的に事前訓練する。本モデルの有効性は,感情認識,笑いの検出,明らかな人格推定など,社会的・感情的な下流の様々な課題におけるモデルを微調整し,評価することで実証する。このモデルは,マルチモーダル感情認識と笑い認識の最先端結果と,明らかな個性推定のための競合結果を実現し,ドメイン内自己指導型事前学習の有効性を実証する。コードとモデルウェイトはhttps://github.com/HuBohy/SocialMAE.comで入手できる。

関連論文リスト

Voice Activity Projection Model with Multimodal Encoders [0.9208007322096533]
本稿では,事前学習した音声と顔エンコーダで強化されたマルチモーダルモデルを提案する。私たちのモデルは競争力があり、場合によっては、ターンテイクメトリクスの最先端モデルよりも優れています。
論文参考訳（メタデータ） (2025-06-04T14:10:03Z)
Social-MAE: Social Masked Autoencoder for Multi-person Motion Representation Learning [16.85316898267404]
マルチ対人動作データのためのトランスフォーマーベースのマスク付きオートエンコーダフレームワークであるSocial-MAEを紹介する。このフレームワークは、マスク付きモデリングを使用して、エンコーダを事前訓練し、マスク付きヒト関節軌道を再構築する。それは、多人数のポーズ予測、社会的グループ化、社会的行動理解など、様々な高度な社会的タスクに関する最先端の結果を達成する。
論文参考訳（メタデータ） (2024-04-08T14:54:54Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文参考訳（メタデータ） (2023-05-31T18:27:43Z)
A vector quantized masked autoencoder for audiovisual speech emotion recognition [5.8641712963450825]
VQ-MAE-AVは、マスク付きオートエンコーダを利用してラベルなしで音声視覚音声の表現を学習する自己教師型マルチモーダルモデルである。このモデルは、ローカル(フレームレベル)とグローバル(シーケンスレベル)の両方のオーディオ視覚音声表現を抽出するように設計されている。提案手法は、制御条件と非制御条件の両方において、複数のデータセットにまたがる最先端の感情認識結果を実現する。
論文参考訳（メタデータ） (2023-05-05T14:19:46Z)
Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder) 我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文参考訳（メタデータ） (2022-10-02T07:29:57Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。