論文の概要: SyncLipMAE: Contrastive Masked Pretraining for Audio-Visual Talking-Face Representation
- arxiv url: http://arxiv.org/abs/2510.10069v1
- Date: Sat, 11 Oct 2025 07:12:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.921563
- Title: SyncLipMAE: Contrastive Masked Pretraining for Audio-Visual Talking-Face Representation
- Title(参考訳): SyncLipMAE: 音声対話顔表現のためのコントラスト型マスクプリトレーニング
- Authors: Zeyu Ling, Xiaodong Gu, Jiangnan Tang, Changqing Zou,
- Abstract要約: 本稿では、対話型ビデオのための自己教師型事前学習フレームワークSyncLipMAEを紹介する。
ラベル付けされていないオーディオ・ビジュアルストリームから同期認識と転送可能な顔のダイナミクスを学ぶ。
- 参考スコア(独自算出の注目度): 18.719993633325522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SyncLipMAE, a self-supervised pretraining framework for talking-face video that learns synchronization-aware and transferable facial dynamics from unlabeled audio-visual streams. Our approach couples masked visual modeling with cross-modal contrastive alignment and employs three per-frame prompt tokens that explicitly encode the essential factors of a talking-face frame - identity, vocal motion (speech-synchronized facial dynamics), and ambient motion (audio-agnostic movements such as blinks and head pose). The contrastive objective uses time-aligned vocal-motion and audio tokens as positives and misaligned pairs as negatives, driving both modalities into a shared embedding space and yielding token-level audio-visual stream synchronization. After pretraining, the aligned audio tokens together with the visual prompt tokens (identity, vocal motion, ambient motion) form a unified interface for four disparate downstream settings: (i) audio-visual stream synchronization; (ii) facial emotion and head/face action recognition; (iii) visual speech recognition; and (iv) visual dubbing, for which we enable indistinguishable audio- or video-driven control within a single model. Across four task families that require distinct capabilities, SyncLipMAE achieves state-of-the-art results, underscoring the effectiveness of synchronization-aware, factorized self-supervised pretraining.
- Abstract(参考訳): 我々はSyncLipMAEを紹介した。これは音声-視覚ストリームから、同期認識および転送可能な顔のダイナミクスを学習する、対話型ビデオのための自己教師付き事前学習フレームワークである。
提案手法では,3つのフレーム単位のプロンプトトークンを用いて,顔の同一性,声動(音声同期顔の動き),周囲の動き(瞬きや頭部ポーズなどの音響非依存動作)を明示的に符号化する。
対照的な目的は、タイムアラインな音声と音声のトークンを正として、ペアを負として、両方のモダリティを共有埋め込み空間に駆動し、トークンレベルのオーディオと視覚のストリーム同期を生成する。
事前訓練後、アライメントされたオーディオトークンと視覚的プロンプトトークン(アイデンティティ、声の動き、周囲の動き)は、4つの異なる下流設定のための統一インターフェースを形成する。
(i)音声-視覚ストリーム同期
(二)顔の感情と頭/顔の行動認識
(三)視覚音声認識、及び
(4)視覚的ダビングにより,単一モデル内での音声やビデオによる制御を区別できないものにする。
異なる機能を必要とする4つのタスクファミリーでSyncLipMAEは最先端の結果を達成する。
関連論文リスト
- Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - Face2VoiceSync: Lightweight Face-Voice Consistency for Text-Driven Talking Face Generation [14.036076647627553]
顔画像とテキストが与えられた場合、音声による顔のアニメーションとその対応する音声を生成する。
我々は、新しいフレームワークFace2VoiceSyncを提案し、いくつかの新しいコントリビューションを行った。
実験では、Face2VoiceSyncは単一の40GBのGPU上で、視覚的およびオーディオ的両方のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-25T12:49:06Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - LinguaLinker: Audio-Driven Portraits Animation with Implicit Facial Control Enhancement [8.973545189395953]
本研究では,拡散に基づく手法による視覚的に魅力的な時間同期アニメーションの作成に焦点をあてる。
我々は音声の特徴を別々に処理し、画像の出自に関わらず、口、目、頭の動きを暗黙的に制御する対応する制御ゲートを導出する。
アニメーションポートレートの忠実さ,リップシンクの正確さ,および本手法により達成された適切な動作変化の大幅な改善により,任意の言語でポートレートをアニメーションするための汎用ツールとなった。
論文 参考訳(メタデータ) (2024-07-26T08:30:06Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization [29.53063463863921]
我々は、フレームレベルのクロスモーダル監視に量子化オーディオを利用するエンドツーエンド学習フレームワークSyncVSRを提案する。
音響データと視覚表現を同期するプロジェクション層を統合することで、エンコーダは、非自己回帰的な方法でビデオシーケンスから離散的なオーディオトークンを生成することを学習する。
我々の経験的評価は、最先端の結果を達成するだけでなく、データ使用量を最大9倍に削減できることを示している。
論文 参考訳(メタデータ) (2024-06-18T03:14:22Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。