論文の概要: AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment
- arxiv url: http://arxiv.org/abs/2404.04946v1
- Date: Sun, 7 Apr 2024 12:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 18:22:15.452591
- Title: AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment
- Title(参考訳): AnimateZoo: 被写体アライメントによる異種アニメーションのゼロショット映像生成
- Authors: Yuanfeng Xu, Yuhao Chen, Zhongzhan Huang, Zijian He, Guangrun Wang, Philip Torr, Liang Lin,
- Abstract要約: 動物アニメーションを作成するため, ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。
AnimateZooで使われる主要なテクニックは、2つのステップを含む被写体アライメントです。
我々のモデルは、正確な動き、一貫した外観、高忠実度フレームを特徴とする映像を生成することができる。
- 参考スコア(独自算出の注目度): 64.02822911038848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent video editing advancements rely on accurate pose sequences to animate subjects. However, these efforts are not suitable for cross-species animation due to pose misalignment between species (for example, the poses of a cat differs greatly from that of a pig due to differences in body structure). In this paper, we present AnimateZoo, a zero-shot diffusion-based video generator to address this challenging cross-species animation issue, aiming to accurately produce animal animations while preserving the background. The key technique used in our AnimateZoo is subject alignment, which includes two steps. First, we improve appearance feature extraction by integrating a Laplacian detail booster and a prompt-tuning identity extractor. These components are specifically designed to capture essential appearance information, including identity and fine details. Second, we align shape features and address conflicts from differing subjects by introducing a scale-information remover. This ensures accurate cross-species animation. Moreover, we introduce two high-quality animal video datasets featuring a wide variety of species. Trained on these extensive datasets, our model is capable of generating videos characterized by accurate movements, consistent appearance, and high-fidelity frames, without the need for the pre-inference fine-tuning that prior arts required. Extensive experiments showcase the outstanding performance of our method in cross-species action following tasks, demonstrating exceptional shape adaptation capability. The project page is available at https://justinxu0.github.io/AnimateZoo/.
- Abstract(参考訳): 近年の映像編集の進歩は、被写体をアニメーション化するための正確なポーズシーケンスに依存している。
しかし、これらの努力は種間の相違による異種間アニメーションには適していない(例えば、猫のポーズは体の構造の違いによって豚のポーズと大きく異なる)。
本稿では,動物アニメーションを正確に生成し,背景を保存しつつ,動物アニメーションを正確に生成することを目的とした,ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。
AnimateZooで使われている重要なテクニックは、2つのステップを含む被写体アライメントです。
まず,ラプラシアンディテールブースターと早期調整ID抽出器を組み合わせることで外観特徴抽出を改善する。
これらのコンポーネントは、アイデンティティや詳細な詳細を含む、重要な外観情報を取得するように設計されている。
第2に,スケールインフォメーション除去器を導入することにより,異なる被験者からの形状特徴と対応コンフリクトを整列する。
これにより、正確なクロススペックアニメーションが保証される。
さらに,多種多様な動物を特徴とする高品質な動物ビデオデータセットを2種類導入した。
これらの広範囲なデータセットに基づいて、我々のモデルは、事前推論の微調整を必要とせず、正確な動き、一貫した外観、高忠実度フレームを特徴とするビデオを生成することができる。
広範囲な実験により, 課題に追従する種間行動における本手法の卓越した性能を示し, 例外的な形状適応能力を示した。
プロジェクトページはhttps://justinxu0.github.io/AnimateZoo/で公開されている。
関連論文リスト
- Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - SketchBetween: Video-to-Video Synthesis for Sprite Animation via
Sketches [0.9645196221785693]
2Dアニメーションは、キャラクター、エフェクト、バックグラウンドアートに使用されるゲーム開発において一般的な要素である。
アニメーションの自動化アプローチは存在するが、アニメーションを念頭に置いて設計されている。
本稿では,アニメーションの標準的なワークフローにより密着した問題定式化を提案する。
論文 参考訳(メタデータ) (2022-09-01T02:43:19Z) - Deep Animation Video Interpolation in the Wild [115.24454577119432]
本研究では,アニメーション・ビデオ・コードに関する問題を初めて形式的に定義・検討する。
効果的なフレームワークであるAnimeInterpを2つの専用モジュールで粗密に提案します。
特にAnimeInterpは、野生のアニメーションシナリオに良好な知覚品質と堅牢性を示します。
論文 参考訳(メタデータ) (2021-04-06T13:26:49Z) - Going beyond Free Viewpoint: Creating Animatable Volumetric Video of
Human Performances [7.7824496657259665]
本稿では,人間の演奏の高品質な映像コンテンツ作成のためのエンドツーエンドパイプラインを提案する。
セマンティックエンリッチメントと幾何学的アニメーション能力は、3Dデータに時間的一貫性を確立することによって達成される。
ポーズ編集では、キャプチャしたデータを可能な限り活用し、キャプチャしたフレームをキネマティックに変形して所望のポーズに適合させる。
論文 参考訳(メタデータ) (2020-09-02T09:46:12Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。