論文の概要: Livatar-1: Real-Time Talking Heads Generation with Tailored Flow Matching
- arxiv url: http://arxiv.org/abs/2507.18649v1
- Date: Tue, 22 Jul 2025 01:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.681444
- Title: Livatar-1: Real-Time Talking Heads Generation with Tailored Flow Matching
- Title(参考訳): Livatar-1: テーラーフローマッチングによるリアルタイムトーキングヘッド生成
- Authors: Haiyang Liu, Xiaolin Hong, Xuancheng Yang, Yudi Ruan, Xiang Lian, Michael Lingelbach, Hongwei Yi, Wei Li,
- Abstract要約: Livatarはリアルタイム音声駆動音声ヘッドビデオ生成フレームワークである。
HDTFデータセット上の8.50 LipSync Confidenceで、競争力のあるリップシンク品質を実現する。
スループットは141 FPSに達し、1つのA10 GPU上でエンドツーエンドのレイテンシは0.17秒である。
- 参考スコア(独自算出の注目度): 11.07549779677865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Livatar, a real-time audio-driven talking heads videos generation framework. Existing baselines suffer from limited lip-sync accuracy and long-term pose drift. We address these limitations with a flow matching based framework. Coupled with system optimizations, Livatar achieves competitive lip-sync quality with a 8.50 LipSync Confidence on the HDTF dataset, and reaches a throughput of 141 FPS with an end-to-end latency of 0.17s on a single A10 GPU. This makes high-fidelity avatars accessible to broader applications. Our project is available at https://www.hedra.com/ with with examples at https://h-liu1997.github.io/Livatar-1/
- Abstract(参考訳): 本稿では,リアルタイム音声駆動音声ヘッドビデオ生成フレームワークLivatarを紹介する。
既存のベースラインは、リップシンク精度の制限と長期ポーズドリフトに悩まされている。
これらの制限をフローマッチングベースのフレームワークで解決する。
システムの最適化と組み合わせて、LivatarはHDTFデータセット上の8.50 LipSync Confidenceで競合するリップシンク品質を実現し、1つのA10 GPU上で、エンドツーエンドのレイテンシ0.17sのスループットで141 FPSに達する。
これにより、より広いアプリケーションで高忠実なアバターが利用できるようになる。
私たちのプロジェクトはhttps://www.hedra.com/で、https://h-liu 1997.github.io/Livatar-1/で公開されています。
関連論文リスト
- Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising [114.39028517171236]
そこで我々は,ゼロショット音声映像編集を導入し,新たなモデルトレーニングを必要とせず,特定のテキストプロンプトに合わせるために,オリジナル音声映像コンテンツを変換する新しいタスクを提案する。
この課題を評価するために、ゼロショットオーディオビデオ編集用に明示的に設計されたベンチマークデータセットAvED-Benchをキュレートする。
AvEDは、AvED-Benchと最近のOAVEデータセットの両方で優れた結果を示し、その一般化能力を検証する。
論文 参考訳(メタデータ) (2025-03-26T17:59:04Z) - SyncAnimation: A Real-Time End-to-End Framework for Audio-Driven Human Pose and Talking Head Animation [4.374174045576293]
我々は,音声駆動,安定,リアルタイムな発話アバター生成を実現する最初のNeRFベースの手法SyncAnimationを紹介する。
AudioPose SyncerとAudioEmotion Syncerを統合することで、SyncAnimationは高精度なポーズと表現生成を実現する。
High-Synchronization Human Rendererは頭部と上半身のシームレスな統合を保証し、オーディオ同期リップを実現する。
論文 参考訳(メタデータ) (2025-01-24T17:14:25Z) - MuseTalk: Real-Time High-Fidelity Video Dubbing via Spatio-Temporal Sampling [12.438835523353347]
拡散に基づく手法は高い視覚的忠実性を達成するが、計算コストの禁止に苦しむ。
MuseTalkは、遅延空間最適化とデータサンプリング戦略を通じて、このトレードオフを解決する新しい2段階のトレーニングフレームワークである。
MuseTalkは、潜在領域における効果的なオーディオ-視覚機能融合フレームワークを確立し、NVIDIA V100 GPU上で256*256の解像度で30 FPS出力を提供する。
論文 参考訳(メタデータ) (2024-10-14T03:22:26Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization [38.64540967776744]
Diff2Lip(ディフ2リップ)は、これらの特性を保ちながら唇の同期を行うことができる、オーディオ条件の拡散ベースモデルである。
本稿では,Voxceleb2 と LRW のデータセット上で,再構成(音声-ビデオ入力)とクロス設定(音声-ビデオ入力)の両方について結果を示す。
論文 参考訳(メタデータ) (2023-08-18T17:59:40Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - StyleSync: High-Fidelity Generalized and Personalized Lip Sync in
Style-based Generator [85.40502725367506]
高忠実度唇同期を実現する効果的なフレームワークであるStyleSyncを提案する。
具体的には、所定の顔の詳細を保存したマスク誘導空間情報符号化モジュールを設計する。
また,限られたフレームのみにスタイル空間とジェネレータの改良を導入することで,パーソナライズされたリップシンクを実現する。
論文 参考訳(メタデータ) (2023-05-09T13:38:13Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation [47.06075725469252]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - A Lip Sync Expert Is All You Need for Speech to Lip Generation In The
Wild [37.37319356008348]
ターゲット音声セグメントにマッチする任意のアイデンティティの話し顔ビデオのリップ同期。
これに関連する重要な理由を同定し、強力なリップシンク識別器から学習することで解決する。
制約のないビデオのリップ同期を正確に測定するための,厳密な評価ベンチマークとメトリクスを提案する。
論文 参考訳(メタデータ) (2020-08-23T11:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。