論文の概要: Input-Aware Sparse Attention for Real-Time Co-Speech Video Generation
- arxiv url: http://arxiv.org/abs/2510.02617v1
- Date: Thu, 02 Oct 2025 23:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.206094
- Title: Input-Aware Sparse Attention for Real-Time Co-Speech Video Generation
- Title(参考訳): リアルタイム音声合成のための入力認識スパースアテンション
- Authors: Beijia Lu, Ziyi Chen, Jing Xiao, Jun-Yan Zhu,
- Abstract要約: 拡散モデルは、ビデオ作成や仮想エージェントといった様々なアプリケーションのために、オーディオからリアルな音声合成ビデオを合成することができる。
本研究では,多段階拡散ビデオモデルを数段階の学生モデルに蒸留する。
入力された人間のポーズキーポイント間の正確な対応を利用して、話者の顔、手、上半身などの関連領域に注意を向ける。
この入力対応スパースアテンションは、冗長な計算を低減し、身体部分の時間対応を強化し、推論効率と動きコヒーレンスを向上させる。
- 参考スコア(独自算出の注目度): 39.27933931527444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models can synthesize realistic co-speech video from audio for various applications, such as video creation and virtual agents. However, existing diffusion-based methods are slow due to numerous denoising steps and costly attention mechanisms, preventing real-time deployment. In this work, we distill a many-step diffusion video model into a few-step student model. Unfortunately, directly applying recent diffusion distillation methods degrades video quality and falls short of real-time performance. To address these issues, our new video distillation method leverages input human pose conditioning for both attention and loss functions. We first propose using accurate correspondence between input human pose keypoints to guide attention to relevant regions, such as the speaker's face, hands, and upper body. This input-aware sparse attention reduces redundant computations and strengthens temporal correspondences of body parts, improving inference efficiency and motion coherence. To further enhance visual quality, we introduce an input-aware distillation loss that improves lip synchronization and hand motion realism. By integrating our input-aware sparse attention and distillation loss, our method achieves real-time performance with improved visual quality compared to recent audio-driven and input-driven methods. We also conduct extensive experiments showing the effectiveness of our algorithmic design choices.
- Abstract(参考訳): 拡散モデルは、ビデオ作成や仮想エージェントといった様々なアプリケーションのために、オーディオからリアルな音声合成ビデオを合成することができる。
しかし, 既存の拡散法は, 多数のデノナイズステップとコストのかかる注意機構により遅延し, リアルタイムの展開を妨げている。
本研究では,多段階拡散ビデオモデルを数段階の学生モデルに蒸留する。
残念ながら、最近の拡散蒸留法を直接適用すると、映像の品質が劣化し、リアルタイム性能に欠ける。
これらの問題に対処するために,新しいビデオ蒸留法では,注意機能と損失機能の両方に入力された人間のポーズ条件を利用する。
まず、入力された人間のポーズキーポイント間の正確な対応を利用して、話者の顔、手、上半身などの関連領域に注意を向ける。
この入力対応スパースアテンションは、冗長な計算を低減し、身体部分の時間対応を強化し、推論効率と動きコヒーレンスを向上させる。
視覚的品質をより高めるために,リップ同期とハンドモーションリアリズムを改善する入出力式蒸留損失を導入する。
近年の音声駆動方式や入出力駆動方式に比べて視覚的品質が向上した実時間性能を実現する。
また、アルゴリズム設計の選択の有効性を示す広範な実験も行います。
関連論文リスト
- StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。
音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。
Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文 参考訳(メタデータ) (2025-09-26T05:23:31Z) - Taming Consistency Distillation for Accelerated Human Image Animation [47.63111489003292]
DanceLCMは、たった2-4ステップで、最先端のビデオ拡散モデルに匹敵する結果を得る。
コードとモデルは公開されます。
論文 参考訳(メタデータ) (2025-04-15T12:44:53Z) - AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。
本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。
従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-25T08:52:07Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - VideoPure: Diffusion-based Adversarial Purification for Video Recognition [21.317424798634086]
本稿では,ビデオ認識モデルの対角的ロバスト性を改善するための拡散型ビデオ浄化フレームワークであるVideoPureを提案する。
我々は、時間的DDIMインバージョンを用いて、入力分布を時間的に一貫したトラジェクトリ定義分布に変換し、より多くのビデオ構造を保ちながら、対向雑音をカバーする。
ベンチマークデータセットやモデルに対するブラックボックス,グレーボックス,アダプティブアタックに対する本手法の防御性能について検討する。
論文 参考訳(メタデータ) (2025-01-25T00:24:51Z) - Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis [27.43583075023949]
Dittoは拡散型トーキングヘッドフレームワークで、きめ細かい制御とリアルタイム推論を可能にする。
我々は,Dittoが魅力的な音声ヘッドビデオを生成し,制御性とリアルタイム性能の両面で優位性を示すことを示す。
論文 参考訳(メタデータ) (2024-11-29T07:01:31Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。