論文の概要: Test-Time Self-Adaptive Conditioning for Stable Audio-Driven Talking-Head Generation
- arxiv url: http://arxiv.org/abs/2605.25488v1
- Date: Mon, 25 May 2026 06:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.356499
- Title: Test-Time Self-Adaptive Conditioning for Stable Audio-Driven Talking-Head Generation
- Title(参考訳): 安定な音声駆動型トーキングヘッド生成のためのテスト時間自己適応条件設定
- Authors: Zhicheng Zhang, Lei Wang, Yu Zhang, Yongsheng Gao,
- Abstract要約: パラメータフリーな推論フレームワークであるTest-Time Self-Adaptive Conditioning (TT-SAC)を導入する。
単一適応ステップは、生成過程の自己整合平衡を近似し、時間にわたってアイデンティティと動きを安定化する。
最先端のトーキングヘッドジェネレータとベンチマークデータセットの実験では、リップシンクの精度、時間的コヒーレンス、アイデンティティの保存、知覚の忠実さが一貫した改善を示している。
- 参考スコア(独自算出の注目度): 28.732587811107777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven talking-head generation has achieved remarkable progress with recent models such as AniTalker, FLOAT, and Sonic. Despite their success, most existing approaches rely on a single static reference image to condition the entire video generation process at inference stage. This static conditioning paradigm often creates a mismatch between fixed identity features and dynamically evolving facial motion, leading to identity drift, temporal inconsistency, and degraded perceptual quality. We introduce Test-Time Self-Adaptive Conditioning (TT-SAC), a parameter-free inference framework that enables pretrained talking-head generators to adapt their conditioning representations during inference without retraining, gradient updates, or additional supervision. Instead of treating the reference portrait as immutable, TT-SAC composes the generator with its encoder in a feedback loop: the generator's own outputs are re-encoded to construct a refined conditioning representation that better aligns with the temporal dynamics of the synthesized sequence. A single adaptation step approximates a self-consistent equilibrium of the generative process, stabilizing identity and motion across time. We further provide theoretical analysis showing that test-time conditioning adaptation reduces feature variance and improves generative stability under mild Lipschitz assumptions, while exhibiting a principled bias-variance tradeoff that governs the optimal strength of adaptation. Extensive experiments on state-of-the-art talking-head generators and benchmark datasets demonstrate consistent improvements in lip-sync accuracy, temporal coherence, identity preservation, and perceptual fidelity. TT-SAC offers a model-agnostic and training-free strategy for enhancing generative video models, establishing test-time conditioning adaptation as an effective mechanism for stabilizing audio-driven portrait animation.
- Abstract(参考訳): AniTalker、FLOAT、Sonicといった最近のモデルでは、音声駆動のトーキングヘッド生成が目覚ましい進歩を遂げている。
その成功にもかかわらず、既存のアプローチのほとんどは、推論段階でビデオ生成プロセス全体を条件付けるために、単一の静的参照イメージに依存している。
この静的条件付けパラダイムは、固定されたアイデンティティ特徴と動的に進化する顔の動きのミスマッチをしばしば生み出し、アイデンティティドリフト、時間的不整合、知覚品質の低下につながる。
パラメータフリーな推論フレームワークであるTest-Time Self-Adaptive Conditioning (TT-SAC)を導入する。
TT-SACは、参照ポートレートを不変として扱う代わりに、フィードバックループでジェネレータをエンコーダで構成する。
単一適応ステップは、生成過程の自己整合平衡を近似し、時間にわたってアイデンティティと動きを安定化する。
さらに,テスト時間条件付適応は特徴分散を低減し,緩やかなリプシッツ仮定の下で生成安定性を向上させるとともに,適応の最適強度を規定するバイアス分散トレードオフを示す理論解析を行った。
最先端のトーキングヘッドジェネレータとベンチマークデータセットに関する大規模な実験は、リップシンクの精度、時間的コヒーレンス、アイデンティティの保存、知覚の忠実さが一貫した改善を示している。
TT-SACは、音声駆動のポートレートアニメーションを安定化するための効果的なメカニズムとして、テスト時間条件付け適応を確立することによって、生成ビデオモデルを強化するためのモデルに依存しない、トレーニング不要な戦略を提供する。
関連論文リスト
- Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration [72.0672328514289]
マルチモーダル学習は、しばしば低品質データの課題に悩まされる。
コンフォーマル予測自己校正(Conformal Predictive Self-Calibration)と呼ばれる統合フレームワークを提案する。
私たちのフレームワークは、既存の最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-05T14:48:52Z) - TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation [0.0]
本稿では,参照条件付き潜在拡散フレームワークであるTempoSyncDiffを紹介する。
効率的な音声駆動音声ヘッド生成のための数ステップの推論を探索する。
このフレームワークはアイデンティティアンカーと、アイデンティティドリフトとフレーム間フリックを緩和するために設計された時間的正規化を備えている。
論文 参考訳(メタデータ) (2026-03-06T09:09:01Z) - Knob: A Physics-Inspired Gating Interface for Interpretable and Controllable Neural Dynamics [7.965536008626047]
Knobは、ディープラーニングと古典的な制御理論を結びつけるフレームワークである。
我々のフレームワークは、慣れ親しんだ物理アナログを通して「安定性」と「感度」をチューニングできる。
論文 参考訳(メタデータ) (2026-02-26T07:25:22Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - Generative Pre-trained Autoregressive Diffusion Transformer [74.25668109048418]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - TARO: Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning for Synchronized Video-to-Audio Synthesis [39.58643124601554]
本稿では,高忠実かつ時間的コヒーレントな音声合成のための新しいフレームワークTARO(Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning)を提案する。
論文 参考訳(メタデータ) (2025-04-08T04:49:36Z) - Advancing Test-Time Adaptation in Wild Acoustic Test Settings [26.05732574338255]
音声信号は短期的な一貫性に従い、特別な適応戦略を必要とする。
本研究では,ASR微調整音響基礎モデルに適した新しい音響TTA法を提案する。
本手法は,様々な音環境下での既存のベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-10-14T06:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。