論文の概要: Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation
- arxiv url: http://arxiv.org/abs/2410.07718v1
- Date: Mon, 14 Oct 2024 13:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 15:15:56.751711
- Title: Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation
- Title(参考訳): Hallo2:長期保存と高解像度オーディオ駆動画像アニメーション
- Authors: Jiahao Cui, Hui Li, Yao Yao, Hao Zhu, Hanlin Shang, Kaihui Cheng, Hang Zhou, Siyu Zhu, Jingdong Wang,
- Abstract要約: 長編ビデオを作成するために,ハロにデザインの強化を導入する。
我々は4K解像度のポートレートビデオ生成を実現する。
ポートレート表現のための調整可能なセマンティックテキストラベルを条件入力として組み込んだ。
- 参考スコア(独自算出の注目度): 31.751046895654444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in latent diffusion-based generative models for portrait image animation, such as Hallo, have achieved impressive results in short-duration video synthesis. In this paper, we present updates to Hallo, introducing several design enhancements to extend its capabilities. First, we extend the method to produce long-duration videos. To address substantial challenges such as appearance drift and temporal artifacts, we investigate augmentation strategies within the image space of conditional motion frames. Specifically, we introduce a patch-drop technique augmented with Gaussian noise to enhance visual consistency and temporal coherence over long duration. Second, we achieve 4K resolution portrait video generation. To accomplish this, we implement vector quantization of latent codes and apply temporal alignment techniques to maintain coherence across the temporal dimension. By integrating a high-quality decoder, we realize visual synthesis at 4K resolution. Third, we incorporate adjustable semantic textual labels for portrait expressions as conditional inputs. This extends beyond traditional audio cues to improve controllability and increase the diversity of the generated content. To the best of our knowledge, Hallo2, proposed in this paper, is the first method to achieve 4K resolution and generate hour-long, audio-driven portrait image animations enhanced with textual prompts. We have conducted extensive experiments to evaluate our method on publicly available datasets, including HDTF, CelebV, and our introduced "Wild" dataset. The experimental results demonstrate that our approach achieves state-of-the-art performance in long-duration portrait video animation, successfully generating rich and controllable content at 4K resolution for duration extending up to tens of minutes. Project page https://fudan-generative-vision.github.io/hallo2
- Abstract(参考訳): ハロなどのポートレート画像アニメーションの潜時拡散に基づく生成モデルの最近の進歩は、ショートデュレーションビデオ合成において顕著な成果を上げている。
本稿では,ハロの機能を拡張したいくつかの設計拡張を紹介する。
まず,長編ビデオの制作方法を拡張する。
外観のドリフトや時間的アーティファクトといった課題に対処するため,条件付きモーションフレームの画像空間における拡張戦略について検討した。
具体的には、長時間の視覚的一貫性と時間的コヒーレンスを高めるために、ガウス雑音を付加したパッチドロップ手法を導入する。
次に、4K解像度のポートレートビデオ生成を実現する。
これを実現するために、潜時符号のベクトル量子化を実装し、時間的次元のコヒーレンスを維持するために時間的アライメント手法を適用した。
高品質デコーダを統合することにより、4K解像度で視覚合成を実現する。
第3に,ポートレート表現のための調整可能なセマンティックテキストラベルを条件入力として組み込む。
これは従来のオーディオキューを超えて、制御性を改善し、生成されたコンテンツの多様性を高める。
本論文で提案するハロ2は、4K解像度を実現し、テキストプロンプトで強化された1時間長のオーディオ駆動型ポートレート画像アニメーションを生成するための最初の方法である。
我々は、HDTF、CelebV、導入した"Wild"データセットなど、公開データセット上で、我々の手法を評価するための広範な実験を行った。
実験により,長周期のポートレート・ビデオ・アニメーションの最先端性能を実現し,最大10分間の4K解像度でリッチで制御可能なコンテンツを生成できることが実証された。
プロジェクトページ https://fudan-generative-vision.github.io/hallo2
関連論文リスト
- MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - LoopAnimate: Loopable Salient Object Animation [19.761865029125524]
LoopAnimateは、一貫した開始フレームと終了フレームでビデオを生成する新しい方法である。
忠実度や時間的整合性,主観評価結果など,両指標の最先端性を実現している。
論文 参考訳(メタデータ) (2024-04-14T07:36:18Z) - Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras [65.54875149514274]
一般のアパレルにおいて,人間俳優の高度にリアルなフリー視点映像をレンダリングするための最初のアプローチを提案する。
提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。
広い服装の俳優を扱い、さらに細かなダイナミックディテールを再現する。
論文 参考訳(メタデータ) (2023-12-12T16:45:52Z) - LatentMan: Generating Consistent Animated Characters using Image Diffusion Models [44.18315132571804]
テキスト・ツー・イメージ(T2I)拡散モデルに基づいて,アニメキャラクターの一貫した映像を生成するゼロショット手法を提案する。
提案手法は,既存のゼロショットT2V手法より,ピクセルワイドの一貫性とユーザ嗜好の観点からアニメーションキャラクターのビデオ生成に優れる。
論文 参考訳(メタデータ) (2023-12-12T10:07:37Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - Context-Preserving Two-Stage Video Domain Translation for Portrait
Stylization [68.10073215175055]
本稿では,時間的コヒーレントなスタイリングビデオを生成するためのモデルを強制する客観的機能を備えた新しい2段階ビデオ翻訳フレームワークを提案する。
我々のモデルは1フレームあたり0.011秒のレイテンシでリアルタイムに動作し、パラメータは5.6Mしか必要としない。
論文 参考訳(メタデータ) (2023-05-30T15:46:25Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。