論文の概要: TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation
- arxiv url: http://arxiv.org/abs/2603.06057v1
- Date: Fri, 06 Mar 2026 09:09:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.478814
- Title: TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation
- Title(参考訳): TempoSyncDiff:低レイテンシ音声駆動トーキングヘッド生成のための蒸留時間連続拡散
- Authors: Soumya Mazumdar, Vineet Kumar Rakesh,
- Abstract要約: 本稿では,参照条件付き潜在拡散フレームワークであるTempoSyncDiffを紹介する。
効率的な音声駆動音声ヘッド生成のための数ステップの推論を探索する。
このフレームワークはアイデンティティアンカーと、アイデンティティドリフトとフレーム間フリックを緩和するために設計された時間的正規化を備えている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models have recently advanced photorealistic human synthesis, although practical talking-head generation (THG) remains constrained by high inference latency, temporal instability such as flicker and identity drift, and imperfect audio-visual alignment under challenging speech conditions. This paper introduces TempoSyncDiff, a reference-conditioned latent diffusion framework that explores few-step inference for efficient audio-driven talking-head generation. The approach adopts a teacher-student distillation formulation in which a diffusion teacher trained with a standard noise prediction objective guides a lightweight student denoiser capable of operating with significantly fewer inference steps to improve generation stability. The framework incorporates identity anchoring and temporal regularization designed to mitigate identity drift and frame-to-frame flicker during synthesis, while viseme-based audio conditioning provides coarse lip motion control. Experiments on the LRS3 dataset report denoising-stage component-level metrics relative to VAE reconstructions and preliminary latency characterization, including CPU-only and edge computing measurements and feasibility estimates for edge deployment. The results suggest that distilled diffusion models can retain much of the reconstruction behaviour of a stronger teacher while enabling substantially lower latency inference. The study is positioned as an initial step toward practical diffusion-based talking-head generation under constrained computational settings. GitHub: https://mazumdarsoumya.github.io/TempoSyncDiff
- Abstract(参考訳): 拡散モデルは近年,高度なフォトリアリスティックな人間の合成が進んでいるが,実用的な音声頭生成(THG)は高い推論遅延,フリックやアイデンティティドリフトなどの時間的不安定性,難解な音声条件下での音声・視覚的アライメントに制約されている。
本稿では,参照条件付き遅延拡散フレームワークであるTempoSyncDiffを紹介する。
提案手法は,標準雑音予測目標を用いた拡散教師が,推定ステップを著しく小さくして動作し,生成安定性を向上させる軽量な学生デノイザーを指導する,教師・学生の蒸留形式を採用する。
このフレームワークにはアイデンティティアンカーと時間正規化が組み込まれており、合成中にアイデンティティドリフトとフレーム間フリックを緩和し、ビセムベースのオーディオコンディショニングは粗い唇の動き制御を提供する。
LRS3データセットのレポートでは、VAEの再構築と、CPUのみとエッジコンピューティングの測定、エッジデプロイメントの実現可能性見積を含む、事前のレイテンシ特性に関する、段階的なコンポーネントレベルのメトリクスが報告されている。
その結果, 蒸留拡散モデルでは, より強い教師の復元行動の多くを維持でき, 遅延推定を著しく低減できることがわかった。
本研究は,制約付き計算環境下での実践的拡散型トーキングヘッド生成に向けた最初のステップとして位置づけられている。
GitHub:https://mazumdarsoumya.github.io/TempoSyncDiff
関連論文リスト
- REST: Diffusion-based Real-time End-to-end Streaming Talking Head Generation via ID-Context Caching and Asynchronous Streaming Distillation [41.34425148954312]
RESTは、トーキングヘッドジェネレーションのための自動回帰と拡散ベースのアプローチのギャップを埋めます。
RESTは、生成速度と全体的なパフォーマンスの両方において最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-12-12T02:28:52Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation [21.335983674309475]
拡散モデルは、世代毎の根底にあるデノナイジングネットワークへのクエリ数が過度に多いため、遅い推論に悩まされる。
本稿では,1つの非自己回帰型ネットワーククエリのみを必要とするフレームワークであるConsistencyTTAを紹介する。
そこで我々は「CFG対応潜時整合モデル」を提案し, 整合性生成を潜時空間に適応させる。
論文 参考訳(メタデータ) (2023-09-19T16:36:33Z) - Instructed Diffuser with Temporal Condition Guidance for Offline
Reinforcement Learning [71.24316734338501]
テンポラリ・コンポラブル・ディフューザ(TCD)を用いた実効時間条件拡散モデルを提案する。
TCDは、相互作用シーケンスから時間情報を抽出し、時間条件で生成を明示的にガイドする。
提案手法は,従来のSOTAベースラインと比較して最高の性能を達成または一致させる。
論文 参考訳(メタデータ) (2023-06-08T02:12:26Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。