論文の概要: HighSync: High-Quality Lip Synchronization via Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.16918v1
- Date: Sat, 16 May 2026 10:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.292234
- Title: HighSync: High-Quality Lip Synchronization via Latent Diffusion Models
- Title(参考訳): HighSync: 潜時拡散モデルによる高品質リップ同期
- Authors: Saeed Firouzi Daghigh, Majid Iranpour Mobarekeh, Mostafa Alavi, Mehdi Bagheri,
- Abstract要約: HighSyncは、高忠実度リップシンクのためのエンドツーエンドの拡散ベースのフレームワークである。
512*512の解像度で動作する最初のリップシンクモデルであり、プロのプロダクション環境で実行可能なソリューションとして位置づけられている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present HighSync, an end-to-end diffusion-based framework for high-fidelity lip synchronization that generates photorealistic talking-face videos aligned with arbitrary input audio. Existing approaches consistently struggle to reconcile image quality with synchronization accuracy, producing either visually degraded outputs or temporally inconsistent lip movements. HighSync addresses both challenges simultaneously and, to our knowledge, is the first lip sync model to operate natively at 512*512 resolution, positioning it as a viable solution for professional production environments such as the film and broadcast industries. Central to our approach is the identification and systematic elimination of a data leakage phenomenon that has silently undermined temporal modeling in prior work, preventing models from developing a genuine dependence on the audio signal. Comprehensive evaluations across both perceptual quality and synchronization accuracy metrics confirm that HighSync achieves state-of-the-art performance on both fronts. Source code, pre-trained models, and supplementary video results are publicly available at: https://github.com/saeed5959/high_sync
- Abstract(参考訳): 任意の入力音声に整合したフォトリアリスティックな音声合成ビデオを生成する,高忠実度唇同期のためのエンドツーエンド拡散ベースフレームワークであるHighSyncを提案する。
既存のアプローチは、画像品質を同期精度で調整するのに一貫して苦労し、視覚的に劣化した出力を生成するか、時間的に一貫性のない唇の動きを生成する。
HighSyncは512*512の解像度でネイティブに動作する最初のリップシンクモデルであり、映画や放送業界といったプロフェッショナルなプロダクション環境において実行可能なソリューションとして位置づけています。
我々のアプローチの中心は、事前作業において時間的モデリングを静かに減らしたデータ漏洩現象の同定と系統的除去であり、モデルが音声信号に真に依存することを防ぐことである。
知覚品質と同期精度の両方の総合的な評価は、HighSyncが両方の面で最先端のパフォーマンスを達成することを確認します。
ソースコード、事前訓練されたモデル、追加のビデオ結果は、https://github.com/saeed5959/high_syncで公開されている。
関連論文リスト
- From Synchrony to Sequence: Exo-to-Ego Generation via Interpolation [54.68405211129937]
Exo-Seqto-Egoビデオ生成は、同期された3人称と対応するカメラポーズから1人称ビューを合成することを目的としている。
同期されたExo-egoデータは本質的に時間的不連続を導入し、標準ビデオ生成ベンチマークのスムーズな動作仮定に違反する。
我々は、ソースとターゲットビデオの間に補間して単一の連続信号を形成するシーケンシャルシーケンスモデルであるSyn2Ex-Forcingを提案する。
論文 参考訳(メタデータ) (2026-04-15T12:32:25Z) - CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing [76.74048814837336]
映画ダビングは、ターゲット映像中の唇の動きと同期しながら、参照音声の音声アイデンティティを保持する音声を合成することを目的としている。
既存の方法は正確なリップシンクを達成できず、持続時間レベルでの明示的なアライメントによって自然性を欠いている。
認知同期拡散変換器(CoSync-DiT)により駆動される新しいフローマッチング型フィルムダビングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T05:03:57Z) - Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers [19.226787997122987]
380x640の解像度、24fpsのビデオが多様な音声入力と同期するSyncphonyを提案する。
提案手法は,事前学習したビデオバックボーン上に構築され,同期性を改善するために2つの重要なコンポーネントが組み込まれている。
AVSync15とThe Greatest Hitsデータセットの実験では、Syncphonyは同期精度と視覚的品質の両方で既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-09-26T05:30:06Z) - MirrorMe: Towards Realtime and High Fidelity Audio-Driven Halfbody Animation [21.216297567167036]
MirrorMeは、LTXビデオモデル上に構築されたリアルタイムで制御可能なフレームワークである。
MirrorMeは映像を空間的に時間的に圧縮し、効率的な遅延空間をデノイングする。
EMTDベンチマークの実験では、MirrorMeの忠実さ、リップシンク精度、時間的安定性が実証されている。
論文 参考訳(メタデータ) (2025-06-27T09:57:23Z) - OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers [18.187498205054748]
我々は,多様な視覚シナリオを対象とした共通唇同期フレームワークであるOmniSyncを紹介する。
提案手法では,Diffusion Transformerモデルを用いたマスクのないトレーニングパラダイムを導入し,マスクを明示せずに直接フレーム編集を行う。
AI生成ビデオにおけるリップシンクのための最初の評価スイートであるAICLipSync Benchmarkも確立した。
論文 参考訳(メタデータ) (2025-05-27T17:20:38Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - LatentSync: Taming Audio-Conditioned Latent Diffusion Models for Lip Sync with SyncNet Supervision [13.447234794835921]
安定収束のために設計されたアーキテクチャを備えたStableSyncNetを紹介する。
提案手法は,HDTFおよびVoxCeleb2データセット上での様々な評価指標にまたがって,最先端のリップシンクアプローチを超越する。
論文 参考訳(メタデータ) (2024-12-12T13:20:52Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。