論文の概要: V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation
- arxiv url: http://arxiv.org/abs/2406.02511v1
- Date: Tue, 4 Jun 2024 17:32:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 15:00:23.990991
- Title: V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation
- Title(参考訳): V-Express: ポートレート映像生成のプログレッシブトレーニングのための条件付きドロップアウト
- Authors: Cong Wang, Kuan Tian, Jun Zhang, Yonghang Guan, Feng Luo, Fei Shen, Zhiwei Jiang, Qing Gu, Xiao Han, Wei Yang,
- Abstract要約: V-Expressは、プログレッシブトレーニングと条件付きドロップアウト操作を通じて異なる制御信号のバランスをとる単純な方法である。
本手法は,音声によって制御された肖像画を効果的に生成することができる。
- 参考スコア(独自算出の注目度): 19.427212021512318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of portrait video generation, the use of single images to generate portrait videos has become increasingly prevalent. A common approach involves leveraging generative models to enhance adapters for controlled generation. However, control signals (e.g., text, audio, reference image, pose, depth map, etc.) can vary in strength. Among these, weaker conditions often struggle to be effective due to interference from stronger conditions, posing a challenge in balancing these conditions. In our work on portrait video generation, we identified audio signals as particularly weak, often overshadowed by stronger signals such as facial pose and reference image. However, direct training with weak signals often leads to difficulties in convergence. To address this, we propose V-Express, a simple method that balances different control signals through the progressive training and the conditional dropout operation. Our method gradually enables effective control by weak conditions, thereby achieving generation capabilities that simultaneously take into account the facial pose, reference image, and audio. The experimental results demonstrate that our method can effectively generate portrait videos controlled by audio. Furthermore, a potential solution is provided for the simultaneous and effective use of conditions of varying strengths.
- Abstract(参考訳): ポートレートビデオ生成の分野では、シングルイメージを使用してポートレートビデオを生成することがますます普及している。
一般的なアプローチは、生成モデルを活用して、制御された生成のためのアダプタを強化することである。
しかし、制御信号(例えば、テキスト、音声、参照画像、ポーズ、深さマップなど)は強度によって異なる。
これらの中、弱い条件は、強い条件からの干渉によって効果的になるのに苦しむことが多く、これらの条件のバランスをとるのに困難を呈する。
ポートレートビデオ生成の研究において、音声信号は特に弱く、しばしば顔のポーズや参照画像のような強い信号に隠れていると同定した。
しかし、弱い信号による直接訓練は、しばしば収束の困難を引き起こす。
そこで本研究では,プログレッシブトレーニングと条件付きドロップアウト操作を通じて,異なる制御信号のバランスをとる簡単な方法であるV-Expressを提案する。
本手法は, 顔のポーズ, 参照画像, 音声を同時に考慮した生成機能を実現するために, 弱い条件による効果的な制御を徐々に実現している。
実験結果から,本手法は音声によって制御された肖像画を効果的に生成できることが示された。
さらに、異なる強度の条件を同時に効果的に利用するためのポテンシャル解が提供される。
関連論文リスト
- MegActor-$Σ$: Unlocking Flexible Mixed-Modal Control in Portrait Animation with Diffusion Transformer [17.85194235185717]
MegActor-$Sigma$は混合モード条件拡散変換器(DiT)である
本稿では,視覚と音声の制御強度のバランスをとるためのモダリティ・デカップリング・コントロール(Modality Decoupling Control)のトレーニング戦略を提案する。
実験では、鮮明なポートレートアニメーションの生成における我々のアプローチの優位性を実証し、プライベートデータセットでトレーニングされた従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-27T11:31:47Z) - EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。
提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。
その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文 参考訳(メタデータ) (2024-08-23T11:48:29Z) - Beyond Augmentation: Empowering Model Robustness under Extreme Capture Environments [3.2968751634725435]
コンピュータビジョンにおける人物の再識別は、異なるカメラにまたがる個人を認識し追跡することを目的としている。
様々な照明、カメラスタイル、角度、画像歪みを含む極端な条件は、データの分布と再ID精度に大きな影響を及ぼす可能性がある。
極端条件下でのモデルのロバスト性を改善するために,マルチモード同期学習(MMSL)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-18T16:18:58Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - FAAC: Facial Animation Generation with Anchor Frame and Conditional
Control for Superior Fidelity and Editability [14.896554342627551]
顔のアイデンティティと編集能力を両立させる顔アニメーション生成手法を提案する。
このアプローチは、オリジナルのテキスト・ツー・イメージモデルにおける生成能力の劣化に対処するためのアンカーフレームの概念を取り入れている。
提案手法の有効性をDreamBoothモデルとLoRAモデルで検証した。
論文 参考訳(メタデータ) (2023-12-06T02:55:35Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。
ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。
提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-11T17:46:28Z) - ReliTalk: Relightable Talking Portrait Generation from a Single Video [62.47116237654984]
ReliTalkは、モノクロビデオから再生可能なオーディオ駆動型音声ポートレート生成のための新しいフレームワークである。
我々の重要な洞察は、ポートレートの反射を暗黙的に学習された音声駆動の顔の正常と画像から分解することである。
論文 参考訳(メタデータ) (2023-09-05T17:59:42Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Invertible Network for Unpaired Low-light Image Enhancement [78.33382003460903]
本稿では,非可逆的ネットワークを活用して,前処理における低照度画像の強化と,非対向学習により逆向きに通常の照度画像の劣化を図ることを提案する。
対向的損失に加えて、トレーニングの安定性を確保し、より詳細な画像を保存するために、様々な損失関数を設計する。
低照度画像に対するプログレッシブ自己誘導強調処理を提案し,SOTAに対して良好な性能を示す。
論文 参考訳(メタデータ) (2021-12-24T17:00:54Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。