Fugu-MT 論文翻訳(概要): Temporally-Aligned Evaluation for Audio-Driven Talking Head Generation

論文の概要: Temporally-Aligned Evaluation for Audio-Driven Talking Head Generation

arxiv url: http://arxiv.org/abs/2606.01031v1
Date: Sun, 31 May 2026 05:44:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:29.089522
Title: Temporally-Aligned Evaluation for Audio-Driven Talking Head Generation
Title（参考訳）: 音声駆動型トーキングヘッドの時間的アライメント評価
Authors: Zhicheng Zhang, Lei Wang, Yu Zhang, Yongsheng Gao,
Abstract要約: 既存の評価プロトコルは主に、生成されたビデオと参照ビデオの間の厳密な時間対応を前提としたフレーム単位のメトリクスに依存している。我々は、Soft Dynamic Time Warpingを確立された評価パイプラインに統合する統合シーケンスレベルの再構成を導入する。フレームワイド評価は、厳密なアライメントの下では特別なケースとみなすことができ、一方、シーケンスレベルのアライメントは、安定性の向上、タイミング差に対する感度の低下、モデリングパラダイム間のより明確な分離を提供する。
参考スコア（独自算出の注目度）: 28.732587811107777
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-driven talking-head generation has advanced rapidly, yet existing evaluation protocols mainly rely on frame-wise metrics that assume strict temporal correspondence between generated and reference videos. This assumption does not match speech-driven facial motion, which naturally includes slight timing shifts, different speaking speeds, and stylistic variations. As a result, conventional metrics may treat harmless timing differences as quality errors, making it harder to fairly compare methods and understand their trade-offs. In this work, we argue that evaluation of dynamic generative models should be formulated as a sequence-alignment problem rather than independent frame comparison. We introduce a unified sequence-level reformulation that integrates Soft Dynamic Time Warping into established evaluation pipelines. By aligning feature trajectories while preserving temporal order, the proposed framework provides robustness to bounded temporal misalignments without altering the underlying perceptual, identity, or synchronization encoders. We show that frame-wise evaluation can be viewed as a special case under rigid alignment, while sequence-level alignment provides improved stability, lower sensitivity to timing differences, and clearer separation between modeling paradigms. Building on this principled formulation, we conduct a large-scale benchmark of 20 methods across seven datasets spanning canonical, in-the-wild, and style-diverse scenarios under standardized protocols. Extensive experiments show that temporally aligned metrics are more robust to timing differences, provide more consistent results across datasets, and better reveal systematic trade-offs between modeling paradigms, such as synchronization versus realism and expressiveness versus stability.
Abstract（参考訳）: 音声駆動のトーキングヘッド生成は急速に進歩しているが、既存の評価プロトコルは主に、生成されたビデオと参照ビデオの厳密な時間対応を前提としたフレーム単位のメトリクスに依存している。この仮定は、微妙なタイミングシフト、異なる発声速度、スタイリスティックなバリエーションを含む、音声駆動の顔の動きと一致しない。その結果、従来のメトリクスは、無害なタイミング差を品質エラーとして扱うことができ、メソッドを公平に比較し、トレードオフを理解するのが難しくなる。本研究では、動的生成モデルの評価は、独立フレーム比較よりもシーケンスアライメント問題として定式化されるべきである、と論じる。我々は、Soft Dynamic Time Warpingを確立された評価パイプラインに統合する統合シーケンスレベルの再構成を導入する。時間的順序を保ちながら特徴軌跡を整列させることにより、提案フレームワークは、基礎となる知覚、アイデンティティ、同期エンコーダを変更することなく、境界付けられた時間的不整合に対して堅牢性を提供する。フレームワイド評価は、厳密なアライメントの下では特別なケースとみなすことができ、一方、シーケンスレベルのアライメントは、安定性の向上、タイミング差に対する感度の低下、モデリングパラダイム間のより明確な分離を提供する。この原理的な定式化に基づいて、標準化されたプロトコルの下で、標準、内在、スタイルの異なるシナリオにまたがる7つのデータセットにまたがる20のメソッドの大規模なベンチマークを行う。大規模な実験により、時間的に整合したメトリクスは、タイミングの違いに対してより堅牢であること、データセット間でより一貫性のある結果を提供すること、同期対リアリズム、表現力対安定性といったモデリングパラダイム間の体系的なトレードオフを明らかにすることが示される。

関連論文リスト

Test-Time Self-Adaptive Conditioning for Stable Audio-Driven Talking-Head Generation [28.732587811107777]
パラメータフリーな推論フレームワークであるTest-Time Self-Adaptive Conditioning (TT-SAC)を導入する。単一適応ステップは、生成過程の自己整合平衡を近似し、時間にわたってアイデンティティと動きを安定化する。最先端のトーキングヘッドジェネレータとベンチマークデータセットの実験では、リップシンクの精度、時間的コヒーレンス、アイデンティティの保存、知覚の忠実さが一貫した改善を示している。
論文参考訳（メタデータ） (2026-05-25T06:45:29Z)
Probability-Conserving Flow Guidance [49.03107678763765]
Adaptive Manifold Guidance (AdaMaG)はリアリズムを改善し、幻覚を減らし、高誘導下での劣化を制御する。画像生成ベンチマーク全体で、AdaMaGはリアリズムを改善し、幻覚を減らし、高誘導下での劣化を制御する。
論文参考訳（メタデータ） (2026-05-19T16:34:01Z)
Inference-Time Temporal Probability Smoothing for Stable Video Segmentation with SAM2 under Weak Prompts [0.0]
提案するフレームワークは軽量で、モデルに依存しず、リアルタイムでインタラクティブなビデオセグメンテーションに適している。提案手法は,フレームワイドおよび時間安定性指標の総合的セットを用いて,4つの多様な映像系列に対して評価する。
論文参考訳（メタデータ） (2026-04-18T19:16:22Z)
TimeSAF: Towards LLM-Guided Semantic Asynchronous Fusion for Time Series Forecasting [6.1337977581640075]
TimeSAFは階層的非同期融合に基づく新しいフレームワークである。低レベルの時間的ダイナミクスとの干渉を避けながら、安定的で効率的な意味指導を提供する。
論文参考訳（メタデータ） (2026-04-14T12:18:00Z)
CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing [76.74048814837336]
映画ダビングは、ターゲット映像中の唇の動きと同期しながら、参照音声の音声アイデンティティを保持する音声を合成することを目的としている。既存の方法は正確なリップシンクを達成できず、持続時間レベルでの明示的なアライメントによって自然性を欠いている。認知同期拡散変換器(CoSync-DiT)により駆動される新しいフローマッチング型フィルムダビングフレームワークを提案する。
論文参考訳（メタデータ） (2026-04-14T05:03:57Z)
Beyond Confidence: Adaptive and Coherent Decoding for Diffusion Language Models [64.92045568376705]
コヒーレントコンテキストデコーディング(Coherent Contextual Decoding, CCD)は、2つのコアイノベーションに基づいて構築された新しい推論フレームワークである。 CCDは、歴史的文脈を活用してシーケンスコヒーレンスを高める軌道修正機構を採用している。拡散ステップに基づく厳密なアロケーションの代わりに,各ステップのアンマスク予算を動的に調整する適応型サンプリング戦略を導入する。
論文参考訳（メタデータ） (2025-11-26T09:49:48Z)
Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文参考訳（メタデータ） (2025-10-09T04:48:49Z)
TIMED: Adversarial and Autoregressive Refinement of Diffusion-Based Time Series Generation [0.31498833540989407]
TIMEDは、フォワード-リバース拡散プロセスを通じてグローバル構造をキャプチャする統合生成フレームワークである。特徴空間における実および合成分布をさらに整合させるため、TIMEDは最大平均離散性(MMD)損失を取り入れている。我々は、TIMEDが最先端の生成モデルよりも現実的で時間的に一貫性のあるシーケンスを生成することを示す。
論文参考訳（メタデータ） (2025-09-23T23:05:40Z)
A Convolutional-Attentional Neural Framework for Structure-Aware Performance-Score Synchronization [12.951369232106178]
性能スコア同期は信号処理において重要なタスクである。従来の同期手法は知識駆動アプローチを用いてアライメントを計算する。構造スコア同期のための新しいデータ駆動方式を提案する。
論文参考訳（メタデータ） (2022-04-19T11:41:21Z)
Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文参考訳（メタデータ） (2020-06-19T17:28:07Z)
Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文参考訳（メタデータ） (2020-02-26T12:24:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。