論文の概要: In-Context Audio Control of Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2512.18772v1
- Date: Sun, 21 Dec 2025 15:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.495939
- Title: In-Context Audio Control of Video Diffusion Transformers
- Title(参考訳): ビデオ拡散変換器のインコンテキスト音声制御
- Authors: Wenze Liu, Weicai Ye, Minghong Cai, Quande Liu, Xintao Wang, Xiangyu Yue,
- Abstract要約: 本稿では,ビデオ拡散変換器(ICAC)の音環境制御について述べる。
本稿では,FullDiTに似た統合されたフルアテンションアーキテクチャにおいて,音声による映像生成のための音声信号の統合について検討する。
本研究では,注意パターンを制約して時間的アライメントを強制し,安定したトレーニングと優れたパフォーマンスを実現するMasked 3D Attention機構を提案する。
- 参考スコア(独自算出の注目度): 28.911323185865186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in video generation have seen a shift towards unified, transformer-based foundation models that can handle multiple conditional inputs in-context. However, these models have primarily focused on modalities like text, images, and depth maps, while strictly time-synchronous signals like audio have been underexplored. This paper introduces In-Context Audio Control of video diffusion transformers (ICAC), a framework that investigates the integration of audio signals for speech-driven video generation within a unified full-attention architecture, akin to FullDiT. We systematically explore three distinct mechanisms for injecting audio conditions: standard cross-attention, 2D self-attention, and unified 3D self-attention. Our findings reveal that while 3D attention offers the highest potential for capturing spatio-temporal audio-visual correlations, it presents significant training challenges. To overcome this, we propose a Masked 3D Attention mechanism that constrains the attention pattern to enforce temporal alignment, enabling stable training and superior performance. Our experiments demonstrate that this approach achieves strong lip synchronization and video quality, conditioned on an audio stream and reference images.
- Abstract(参考訳): ビデオ生成の最近の進歩は、コンテクスト内で複数の条件入力を処理できる統一的でトランスフォーマーベースの基盤モデルへとシフトしている。
しかし、これらのモデルは主にテキスト、画像、深度マップのようなモダリティに焦点を当てており、オーディオのような厳密に時間同期の信号は探索されていない。
本稿では,FullDiTと類似した統合されたフルアテンションアーキテクチャにおいて,音声による映像生成のための音声信号の統合を調査するICAC(In-Context Audio Control of Video diffusion transformers)を提案する。
音声条件を注入するための3つのメカニズムを体系的に検討した。
以上の結果から,3次元注意は時空間音声と視覚の相関を捉える上で最も有意な可能性を秘めていると考えられる。
そこで本稿では,注意パターンを制約して時間的アライメントを強制し,安定したトレーニングと優れたパフォーマンスを実現するMasked 3D Attention機構を提案する。
実験により,本手法は,音声ストリームと参照画像に条件付きで,強い唇同期と映像品質を実現することを示す。
関連論文リスト
- Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy [39.04292189640444]
Harmonyは、機械的に音声と視覚の同期を強制する新しいフレームワークである。
それは新しい最先端技術を確立し、生成忠実度と重要な点の両方において既存の方法よりもはるかに優れており、きめ細かいオーディオと視覚の同期を実現している。
論文 参考訳(メタデータ) (2025-11-26T16:53:05Z) - StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model [73.30619724574642]
音声駆動型3D顔アニメーションは、音声入力によって駆動される現実的で同期された顔の動きを生成することを目的としている。
近年,3次元顔アニメーションに音声条件拡散モデルが採用されている。
本稿では,ストリーミング方式で音声を処理する自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-11-18T07:55:16Z) - Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction [28.20791917022439]
本研究は,テキスト・トゥ・サウンド・ビデオ(T2SV)生成という課題に焦点をあてる。
テキスト条件から同期された音声でビデオを生成することを目的としており、両方のモダリティがテキストに一致していることを保証する。
1)ビデオ用テキストが音声用テキストと等しい1つの共有テキストキャプションは、しばしばモーダル干渉を引き起こす。
論文 参考訳(メタデータ) (2025-10-03T15:43:56Z) - SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers [25.36460340267922]
SkyReels-Audioは高忠実で時間的コヒーレントなポートレート映像を合成するための統一的なフレームワークである。
我々のフレームワークは、無限長の生成と編集をサポートし、マルチモーダル入力による多様かつ制御可能な条件付けを可能にする。
論文 参考訳(メタデータ) (2025-06-01T04:27:13Z) - Exploiting Temporal Audio-Visual Correlation Embedding for Audio-Driven One-Shot Talking Head Animation [62.218932509432314]
従来,隣接する音声クリップの時間的関係は,対応する映像フレームの時間的関係と強く相関している。
音声と視覚の相関関係を学習し,その相関関係を統合し,特徴表現の強化と最終生成の正規化を支援する。
論文 参考訳(メタデータ) (2025-04-08T07:23:28Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。
提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:50:27Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition [29.414663568089292]
音声-視覚音声認識は、音声とビデオの両方のモダリティを用いて人間の音声を転写することを目的としている。
本研究では,映像データ中の3つの時間的ダイナミクスを学習することにより,映像特徴の強化を図る。
LRS2 と LRS3 の AVSR ベンチマークにおいて,ノイズ優越性設定のための最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-04T01:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。