論文の概要: Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice
- arxiv url: http://arxiv.org/abs/2508.17502v1
- Date: Sun, 24 Aug 2025 19:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.55841
- Title: Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice
- Title(参考訳): Social-MAE: 顔と音声のためのトランスフォーマーベースのマルチモーダルオートエンコーダ
- Authors: Hugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani,
- Abstract要約: 我々は、Contrastive Audio-Visual Masked Auto-Encoder(CAV-MAE)の拡張版に基づく、事前訓練されたオーディオ視覚マスケオートエンコーダであるSocial-MAEを提案する。
我々は、CAV-MAEを入力としてより多くのフレームを受け取るように修正し、人間の社会的相互作用のデータセット(VoxCeleb2)を自己管理的に事前訓練する。
このモデルは,マルチモーダル感情認識と笑い認識の最先端結果と,明らかな性格推定のための競合結果を達成する。
- 参考スコア(独自算出の注目度): 8.44136409474895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human social behaviors are inherently multimodal necessitating the development of powerful audiovisual models for their perception. In this paper, we present Social-MAE, our pre-trained audiovisual Masked Autoencoder based on an extended version of Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), which is pre-trained on audiovisual social data. Specifically, we modify CAV-MAE to receive a larger number of frames as input and pre-train it on a large dataset of human social interaction (VoxCeleb2) in a self-supervised manner. We demonstrate the effectiveness of this model by finetuning and evaluating the model on different social and affective downstream tasks, namely, emotion recognition, laughter detection and apparent personality estimation. The model achieves state-of-the-art results on multimodal emotion recognition and laughter recognition and competitive results for apparent personality estimation, demonstrating the effectiveness of in-domain self-supervised pre-training. Code and model weight are available here https://github.com/HuBohy/SocialMAE.
- Abstract(参考訳): 人間の社会的行動は本質的にマルチモーダルであり、その知覚に強力な視覚モデルの開発を必要とする。
本稿では,コントラシブ・オーディオ・ビジュアル・マスケド・オートエンコーダ(CAV-MAE)の拡張版をベースとした,事前学習された音声視覚マスケド・オートエンコーダであるSocial-MAEを紹介する。
具体的には、CAV-MAEを入力としてより多くのフレームを受け取るように修正し、人間の社会的相互作用のデータセット(VoxCeleb2)を自己管理的に事前訓練する。
本モデルの有効性は,感情認識,笑いの検出,明らかな人格推定など,社会的・感情的な下流の様々な課題におけるモデルを微調整し,評価することで実証する。
このモデルは,マルチモーダル感情認識と笑い認識の最先端結果と,明らかな個性推定のための競合結果を実現し,ドメイン内自己指導型事前学習の有効性を実証する。
コードとモデルウェイトはhttps://github.com/HuBohy/SocialMAE.comで入手できる。
関連論文リスト
- MOSPA: Human Motion Generation Driven by Spatial Audio [83.31594478750682]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。
本研究では,身体運動と空間音声の関係を忠実に把握する,MOSPAと呼ばれるスパティアルオーディオによって駆動される人間の運動生成のためのフレームワークを開発する。
本手法は,本課題における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-16T06:33:11Z) - Voice Activity Projection Model with Multimodal Encoders [0.9208007322096533]
本稿では,事前学習した音声と顔エンコーダで強化されたマルチモーダルモデルを提案する。
私たちのモデルは競争力があり、場合によっては、ターンテイクメトリクスの最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2025-06-04T14:10:03Z) - Social-MAE: Social Masked Autoencoder for Multi-person Motion Representation Learning [16.85316898267404]
マルチ対人動作データのためのトランスフォーマーベースのマスク付きオートエンコーダフレームワークであるSocial-MAEを紹介する。
このフレームワークは、マスク付きモデリングを使用して、エンコーダを事前訓練し、マスク付きヒト関節軌道を再構築する。
それは、多人数のポーズ予測、社会的グループ化、社会的行動理解など、様々な高度な社会的タスクに関する最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-04-08T14:54:54Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - A vector quantized masked autoencoder for audiovisual speech emotion recognition [5.8641712963450825]
VQ-MAE-AVは、マスク付きオートエンコーダを利用してラベルなしで音声視覚音声の表現を学習する自己教師型マルチモーダルモデルである。
このモデルは、ローカル(フレームレベル)とグローバル(シーケンスレベル)の両方のオーディオ視覚音声表現を抽出するように設計されている。
提案手法は、制御条件と非制御条件の両方において、複数のデータセットにまたがる最先端の感情認識結果を実現する。
論文 参考訳(メタデータ) (2023-05-05T14:19:46Z) - DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder [55.58582254514431]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-30T17:18:31Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。