Fugu-MT 論文翻訳(概要): AniClipart: Clipart Animation with Text-to-Video Priors

論文の概要: AniClipart: Clipart Animation with Text-to-Video Priors

arxiv url: http://arxiv.org/abs/2404.12347v1
Date: Thu, 18 Apr 2024 17:24:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-19 18:52:16.593630
Title: AniClipart: Clipart Animation with Text-to-Video Priors
Title（参考訳）: AniClipart: テキストからビデオへの事前アニメーション
Authors: Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao,
Abstract要約: AniClipartは、静的な画像をテキストからビデオへの事前案内による高品質なモーションシーケンスに変換するシステムである。実験結果から,提案したAniClipartは既存の画像・映像生成モデルより一貫して優れていることがわかった。
参考スコア（独自算出の注目度）: 28.76809141136148
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Clipart, a pre-made graphic art form, offers a convenient and efficient way of illustrating visual content. Traditional workflows to convert static clipart images into motion sequences are laborious and time-consuming, involving numerous intricate steps like rigging, key animation and in-betweening. Recent advancements in text-to-video generation hold great potential in resolving this problem. Nevertheless, direct application of text-to-video generation models often struggles to retain the visual identity of clipart images or generate cartoon-style motions, resulting in unsatisfactory animation outcomes. In this paper, we introduce AniClipart, a system that transforms static clipart images into high-quality motion sequences guided by text-to-video priors. To generate cartoon-style and smooth motion, we first define B\'{e}zier curves over keypoints of the clipart image as a form of motion regularization. We then align the motion trajectories of the keypoints with the provided text prompt by optimizing the Video Score Distillation Sampling (VSDS) loss, which encodes adequate knowledge of natural motion within a pretrained text-to-video diffusion model. With a differentiable As-Rigid-As-Possible shape deformation algorithm, our method can be end-to-end optimized while maintaining deformation rigidity. Experimental results show that the proposed AniClipart consistently outperforms existing image-to-video generation models, in terms of text-video alignment, visual identity preservation, and motion consistency. Furthermore, we showcase the versatility of AniClipart by adapting it to generate a broader array of animation formats, such as layered animation, which allows topological changes.
Abstract（参考訳）: プリメイドのグラフィックアート形式であるClipartは、視覚コンテンツをイラストする便利な、効率的な方法を提供する。静的クリップアート画像をモーションシーケンスに変換する従来のワークフローは、厳格で時間を要するもので、リギング、キーアニメーション、イン・バイ・ザ・ビートニングといった複雑なステップが数多く含まれている。近年のテキスト・ビデオ・ジェネレーションの進歩はこの問題の解決に大きな可能性を秘めている。それでも、テキスト・ビデオ生成モデルの直接的な適用は、クリップアート画像の視覚的アイデンティティを維持したり、漫画風のモーションを生成するのに苦労することが多く、満足のいくアニメーションの結果をもたらす。本稿では,静的クリップアート画像をテキストからビデオへの事前案内による高品質なモーションシーケンスに変換するシステムであるAniClipartを紹介する。マンガ型および滑らかな動きを生成するために,まず,クリップアート画像のキーポイント上のB\'{e}zier曲線を運動正規化の一形態として定義する。次に,ビデオスコア蒸留サンプリング(VSDS)の損失を最適化し,予め訓練されたテキストからビデオへの拡散モデルにおける自然な動きの十分な知識を符号化することにより,キーポイントの運動軌跡と提供されたテキストプロンプトとを一致させる。微分可能なAs-Rigid-As-Possible形状変形アルゴリズムにより,変形剛性を維持しながらエンドツーエンドの最適化が可能となる。実験結果から,提案したAniClipartは,テキスト・ビデオアライメント,視覚的アイデンティティ保存,動きの整合性の観点から,既存の画像・映像生成モデルよりも一貫して優れていた。さらに,AniClipartの汎用性を示すために,トポロジ的な変更が可能な階層アニメーションなど,より広範なアニメーション形式を生成する。

関連論文リスト

FlexiClip: Locality-Preserving Free-Form Character Animation [14.50214193838818]
AniClipartのような既存の手法は、幾何学的変形を効果的にモデル化するが、しばしばスムーズな時間遷移を保証するのに失敗する。本稿では,時間的整合性や幾何的整合性といった課題に対処することで,これらの制約を克服する新しいアプローチであるFlexiClipを紹介する。
論文参考訳（メタデータ） (2025-01-15T09:07:12Z)
FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations [65.64014682930164]
スケッチアニメーションは、単純なフリップブックの落書きからプロのスタジオプロダクションまで、ビジュアルなストーリーテリングのための強力な媒体を提供する。 FlipSketchは、フリップブックアニメーションの魔法を復活させるシステムです。
論文参考訳（メタデータ） (2024-11-16T14:53:03Z)
Alignment is All You Need: A Training-free Augmentation Strategy for Pose-guided Video Generation [19.408715783816167]
生成された映像シーケンスが参照画像の微妙さを確実に保持する訓練不要のフレームワークを導入する。我々は、骨格と動きの先行情報をポーズ情報から切り離し、アニメーション生成の正確な制御を可能にする。提案手法は,大規模なデータセットや高価な計算資源を必要とせず,映像生成の質を大幅に向上させる。
論文参考訳（メタデータ） (2024-08-29T13:08:12Z)
Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文参考訳（メタデータ） (2024-04-17T17:59:55Z)
AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文参考訳（メタデータ） (2023-12-06T13:39:35Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文参考訳（メタデータ） (2023-11-28T12:27:15Z)
MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。 MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文参考訳（メタデータ） (2023-11-27T18:32:31Z)
AnimateAnything: Fine-Grained Open Domain Image Animation with Motion Guidance [13.416296247896042]
本稿では,映像拡散モデルに先立って動きを利用するオープンドメイン画像アニメーション手法を提案する。本手法では,移動領域の正確な制御と移動速度を実現するため,目標となる運動領域の誘導と運動強度の誘導を導入する。オープンドメインデータセットを用いた厳密な実験により,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-11-21T03:47:54Z)
Regenerating Arbitrary Video Sequences with Distillation Path-Finding [6.687073794084539]
本稿では,開始フレーム上でユーザの好みに応じて新しいシーケンスを生成するインタラクティブなフレームワークを提案する。これを効果的に実現するために、まず、提案ネットワークであるRCFNetを用いて、与えられたビデオのフレームセットの特徴相関を学習する。そこで我々は,ソースビデオの動作方向の知識を定式化し,スムーズかつ妥当なシーケンスを推定する新しいパスフィニングアルゴリズム,SDPFを開発した。
論文参考訳（メタデータ） (2023-11-13T09:05:30Z)
DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文参考訳（メタデータ） (2023-10-18T14:42:16Z)
Deep Animation Video Interpolation in the Wild [115.24454577119432]
本研究では,アニメーション・ビデオ・コードに関する問題を初めて形式的に定義・検討する。効果的なフレームワークであるAnimeInterpを2つの専用モジュールで粗密に提案します。特にAnimeInterpは、野生のアニメーションシナリオに良好な知覚品質と堅牢性を示します。
論文参考訳（メタデータ） (2021-04-06T13:26:49Z)
Going beyond Free Viewpoint: Creating Animatable Volumetric Video of Human Performances [7.7824496657259665]
本稿では,人間の演奏の高品質な映像コンテンツ作成のためのエンドツーエンドパイプラインを提案する。セマンティックエンリッチメントと幾何学的アニメーション能力は、3Dデータに時間的一貫性を確立することによって達成される。ポーズ編集では、キャプチャしたデータを可能な限り活用し、キャプチャしたフレームをキネマティックに変形して所望のポーズに適合させる。
論文参考訳（メタデータ） (2020-09-02T09:46:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。