論文の概要: OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance
- arxiv url: http://arxiv.org/abs/2405.14709v2
- Date: Tue, 28 May 2024 09:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 11:18:53.438498
- Title: OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance
- Title(参考訳): OpFlowTalker: オプティカルフロー誘導によるリアルで自然な顔生成
- Authors: Shuheng Ge, Haoyu Xing, Li Zhang, Xiangqian Wu,
- Abstract要約: OpFlowTalkerは、直接画像予測ではなく、音声入力から予測される光フロー変化を利用する新しい手法である。
画像の遷移を円滑にし、変更をセマンティックコンテンツと整合させる。
また,全顔と唇の動きを調節する光フロー同期モジュールを開発した。
- 参考スコア(独自算出の注目度): 13.050998759819933
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Creating realistic, natural, and lip-readable talking face videos remains a formidable challenge. Previous research primarily concentrated on generating and aligning single-frame images while overlooking the smoothness of frame-to-frame transitions and temporal dependencies. This often compromised visual quality and effects in practical settings, particularly when handling complex facial data and audio content, which frequently led to semantically incongruent visual illusions. Specifically, synthesized videos commonly featured disorganized lip movements, making them difficult to understand and recognize. To overcome these limitations, this paper introduces the application of optical flow to guide facial image generation, enhancing inter-frame continuity and semantic consistency. We propose "OpFlowTalker", a novel approach that utilizes predicted optical flow changes from audio inputs rather than direct image predictions. This method smooths image transitions and aligns changes with semantic content. Moreover, it employs a sequence fusion technique to replace the independent generation of single frames, thus preserving contextual information and maintaining temporal coherence. We also developed an optical flow synchronization module that regulates both full-face and lip movements, optimizing visual synthesis by balancing regional dynamics. Furthermore, we introduce a Visual Text Consistency Score (VTCS) that accurately measures lip-readability in synthesized videos. Extensive empirical evidence validates the effectiveness of our approach.
- Abstract(参考訳): リアルで、自然で、口で読めるビデオを作るのは、まだまだ難しい課題だ。
従来の研究は主に、フレーム間の遷移と時間的依存関係の滑らかさを見越しながら、単一フレーム画像の生成と整合性に焦点を当てていた。
これは、特に複雑な顔データや音声コンテンツを扱う際の視覚的品質や効果を損なうことがあり、しばしば意味的に矛盾する視覚錯覚を引き起こした。
特に、合成されたビデオは、通常、非組織的な唇の動きを特徴としており、理解と認識が困難である。
これらの制約を克服するため,フレーム間の連続性とセマンティック一貫性を向上し,顔画像生成を誘導するための光フローの応用を提案する。
我々は,直接画像予測ではなく,音声入力から予測される光フロー変化を利用する新しい手法である"OpFlowTalker"を提案する。
この方法は画像の遷移を円滑にし、変化を意味のある内容と整合させる。
さらに、単一のフレームの独立生成を置き換えるためにシーケンス融合技術を採用し、コンテキスト情報を保持し、時間的一貫性を維持する。
また,全顔と唇の動きを制御し,局所力学のバランスをとることで視覚合成を最適化する光フロー同期モジュールを開発した。
さらに、合成ビデオのリップ可読性を正確に測定するVisual Text Consistency Score(VTCS)を導入する。
広範囲にわたる経験的証拠が我々のアプローチの有効性を証明している。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Motion and Context-Aware Audio-Visual Conditioned Video Prediction [58.9467115916639]
視覚条件付き映像予測を動作モデルと外観モデルに分離する。
マルチモーダルモーション推定は、音声と動きの相関に基づいて将来の光の流れを予測する。
本研究では,グローバルな出現状況の減少に対処する文脈認識の改良を提案する。
論文 参考訳(メタデータ) (2022-12-09T05:57:46Z) - Unsupervised Coherent Video Cartoonization with Perceptual Motion
Consistency [89.75731026852338]
映像のコヒーレント化のための空間適応型アライメントフレームワークを提案する。
我々は,セマンティック相関写像を,知覚整合運動におけるスタイルに依存しないグローバルな正規化として考案する。
本手法は,高度にスタイリスティックで時間的に一貫したマンガ映像を生成することができる。
論文 参考訳(メタデータ) (2022-04-02T07:59:02Z) - FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute
Learning [23.14865405847467]
本稿では,音声信号を入力とし,短いターゲット映像クリップを参照として,話し顔を生成する手法を提案する。
本発明の方法は、入力された音声信号と同期した自然な唇の動き、頭部ポーズ、および目の点滅で、対象の顔の写実的な映像を合成する。
実験結果とユーザスタディにより,本手法は,最先端の手法よりも優れた品質で,現実的な音声ビデオを生成することができることが示された。
論文 参考訳(メタデータ) (2021-08-18T02:10:26Z) - A Neural Lip-Sync Framework for Synthesizing Photorealistic Virtual News
Anchors [8.13692293541489]
リップシンクは、音声信号から口の動きを生成するための有望な技術として登場した。
本稿では,高忠実度仮想ニュースアンカーの製作に特化して設計された新しいリップシンクフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-20T12:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。