論文の概要: Scalable Audio-Visual Masked Autoencoders for Efficient Affective Video Facial Analysis
- arxiv url: http://arxiv.org/abs/2509.24214v1
- Date: Mon, 29 Sep 2025 02:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.704947
- Title: Scalable Audio-Visual Masked Autoencoders for Efficient Affective Video Facial Analysis
- Title(参考訳): 能率的映像顔分析のためのスケーラブル・オーディオ・ビジュアル・マスク付きオートエンコーダ
- Authors: Xuecheng Wu, Junxiao Xue, Xinyi Yin, Yunyun Shi, Liangyu Fu, Danlei Huang, Yifan Wang, Jia Zhang, Jiayu Nie, Jun Wang,
- Abstract要約: Affective Video Face Analysis (AVFA) は感情認識知能システム構築の鍵となる研究分野として浮上している。
Masked Autoencoders (MAE) が勢いを増し、オーディオ・ビジュアル・コンテキストへの適応が増加している。
AVF-MAE++(AVF-MAE++)は、AVFAのスケーリング特性を効率的に調査するために設計されたオーディオビジュアルMAEモデルのファミリーである。
- 参考スコア(独自算出の注目度): 11.373305523732718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affective video facial analysis (AVFA) has emerged as a key research field for building emotion-aware intelligent systems, yet this field continues to suffer from limited data availability. In recent years, the self-supervised learning (SSL) technique of Masked Autoencoders (MAE) has gained momentum, with growing adaptations in its audio-visual contexts. While scaling has proven essential for breakthroughs in general multi-modal learning domains, its specific impact on AVFA remains largely unexplored. Another core challenge in this field is capturing both intra- and inter-modal correlations through scalable audio-visual representations. To tackle these issues, we propose AVF-MAE++, a family of audio-visual MAE models designed to efficiently investigate the scaling properties in AVFA while enhancing cross-modal correlation modeling. Our framework introduces a novel dual masking strategy across audio and visual modalities and strengthens modality encoders with a more holistic design to better support scalable pre-training. Additionally, we present the Iterative Audio-Visual Correlation Learning Module, which improves correlation learning within the SSL paradigm, bridging the limitations of previous methods. To support smooth adaptation and reduce overfitting risks, we further introduce a progressive semantic injection strategy, organizing the model training into three structured stages. Extensive experiments conducted on 17 datasets, covering three major AVFA tasks, demonstrate that AVF-MAE++ achieves consistent state-of-the-art performance across multiple benchmarks. Comprehensive ablation studies further highlight the importance of each proposed component and provide deeper insights into the design choices driving these improvements. Our code and models have been publicly released at Github.
- Abstract(参考訳): Affective Video Face Analysis (AVFA) は感情認識知能システム構築の鍵となる研究分野として登場したが、この領域は限られたデータ可用性に悩まされ続けている。
近年,Masked Autoencoders (MAE) の自己教師型学習(SSL)技術が勢いを増し,音声・視覚的文脈への適応が増加している。
一般的なマルチモーダル学習領域におけるブレークスルーには、スケーリングが不可欠であることが証明されているが、AVFAに対する具体的な影響は、まだ明らかにされていない。
この分野でのもうひとつの課題は、スケーラブルなオーディオ視覚表現を通じて、モーダル内およびモーダル間相関をキャプチャすることである。
これらの課題に対処するために,AVFAのスケーリング特性を効率よく調査し,モーダル間相関モデルを強化したオーディオ視覚型MAEモデルであるAVF-MAE++を提案する。
我々のフレームワークは、オーディオと視覚のモダリティにまたがる新しい二重マスキング戦略を導入し、スケーラブルな事前学習をサポートするために、より総合的な設計でモダリティエンコーダを強化している。
さらに,SSLパラダイム内での相関学習を改善し,従来手法の限界を埋める反復型音声・視覚相関学習モジュールを提案する。
さらに,スムーズな適応をサポートし,過適合リスクを低減するために,モデルトレーニングを3つの構造化段階に編成する,プログレッシブなセマンティックインジェクション戦略を導入する。
3つの主要なAVFAタスクをカバーする17のデータセットで実施された大規模な実験は、AVF-MAE++が複数のベンチマークで一貫した最先端のパフォーマンスを達成することを示した。
包括的アブレーション研究は、提案された各コンポーネントの重要性をさらに強調し、これらの改善を推進する設計選択についてより深い洞察を提供する。
私たちのコードとモデルはGithubで公開されています。
関連論文リスト
- From Waveforms to Pixels: A Survey on Audio-Visual Segmentation [43.79010208565961]
Audio-Visualは、ビジュアルとオーディオの両方のモダリティを活用して、ビデオ内の音声生成オブジェクトを識別し、セグメント化することを目的としている。
本稿では、AVS分野の概要を概説し、その問題定式化、ベンチマークデータセット、評価指標、方法論の進歩について述べる。
論文 参考訳(メタデータ) (2025-07-29T22:20:51Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [13.887164304514101]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion [12.212623921747264]
トランスフォーマーベースのマルチモーダルモデルは、産業規模のレコメンデーション、検索、広告システムで広く使われている。
AL効率とVLMAEを用いた視覚言語モデリングを実現するため,kNNを用いたLatent Space Broadening (LSB)を提案する。
このシステムはプロダクションシステムにデプロイされ、大きなビジネス上の利益をもたらしました。
論文 参考訳(メタデータ) (2025-03-21T21:55:05Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。