Fugu-MT 論文翻訳(概要): DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

論文の概要: DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

arxiv url: http://arxiv.org/abs/2310.12190v2
Date: Mon, 27 Nov 2023 13:36:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 13:54:59.736091
Title: DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors
Title（参考訳）: DynamiCrafter: ビデオ拡散プリミティブによるオープンドメインイメージのアニメーション
Authors: Jinbo Xing, Menghan Xia, Yong Zhang, Haoxin Chen, Wangbo Yu, Hanyuan Liu, Xintao Wang, Tien-Tsin Wong, Ying Shan
Abstract要約: オープンドメイン画像をアニメーションビデオに変換する手法を提案する。鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
参考スコア（独自算出の注目度）: 63.43133768897087
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Animating a still image offers an engaging visual experience. Traditional image animation techniques mainly focus on animating natural scenes with stochastic dynamics (e.g. clouds and fluid) or domain-specific motions (e.g. human hair or body motions), and thus limits their applicability to more general visual content. To overcome this limitation, we explore the synthesis of dynamic content for open-domain images, converting them into animated videos. The key idea is to utilize the motion prior of text-to-video diffusion models by incorporating the image into the generative process as guidance. Given an image, we first project it into a text-aligned rich context representation space using a query transformer, which facilitates the video model to digest the image content in a compatible fashion. However, some visual details still struggle to be preserved in the resultant videos. To supplement with more precise image information, we further feed the full image to the diffusion model by concatenating it with the initial noises. Experimental results show that our proposed method can produce visually convincing and more logical & natural motions, as well as higher conformity to the input image. Comparative evaluation demonstrates the notable superiority of our approach over existing competitors.
Abstract（参考訳）: 静止画のアニメーションは、魅力的なビジュアル体験を提供する。伝統的な画像アニメーション技術は主に、確率的ダイナミックス(雲や流体など)やドメイン固有の動き(人間の毛髪や身体の動きなど)で自然のシーンをアニメーションすることに焦点を当てており、それによってより一般的な視覚的コンテンツに適用性を制限する。この制限を克服するために,オープンドメイン画像に対する動的コンテンツの合成を探索し,それらをアニメーションビデオに変換する。鍵となるアイデアは、画像を生成過程に組み込むことで、テキストからビデオへの拡散モデルよりも前の動きを利用することである。画像が与えられたら、まず、問合せ変換器を用いてテキスト整列したリッチなコンテキスト表現空間に投影し、ビデオモデルが相容れない方法で画像内容の消化を容易にする。しかし、いくつかの視覚的詳細は、結果のビデオで保存されるのに苦戦している。より正確な画像情報を補足するため、初期ノイズと結合することにより、拡散モデルにさらに全画像を供給する。実験結果から,提案手法は視覚的に説得力があり,より論理的,自然な動きが得られ,入力画像への適合性が向上することが示された。比較評価は既存の競合相手に対するアプローチの顕著な優位性を示している。

関連論文リスト

AniCrafter: Customizing Realistic Human-Centric Animation via Avatar-Background Conditioning in Video Diffusion Models [32.29517110097208]
textbfAniCrafterは、最先端のImage-to-Video(I2V)拡散アーキテクチャ上に構築された、拡散に基づく人間中心のアニメーションモデルである。我々のモデルは、オープンドメインの人間中心のアニメーションを復元タスクとして再構成する、革新的な「アバターバックグラウンド」条件付け機構を組み込んでいる。
論文参考訳（メタデータ） (2025-05-26T17:32:10Z)
X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文参考訳（メタデータ） (2025-01-17T08:10:53Z)
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文参考訳（メタデータ） (2024-08-08T17:59:38Z)
Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文参考訳（メタデータ） (2024-05-27T16:08:00Z)
Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文参考訳（メタデータ） (2024-05-26T00:53:26Z)
AniClipart: Clipart Animation with Text-to-Video Priors [28.76809141136148]
AniClipartは、静的な画像をテキストからビデオへの事前案内による高品質なモーションシーケンスに変換するシステムである。実験結果から,提案したAniClipartは既存の画像・映像生成モデルより一貫して優れていることがわかった。
論文参考訳（メタデータ） (2024-04-18T17:24:28Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)
ActAnywhere: Subject-Aware Video Background Generation [62.57759679425924]
映画産業や視覚効果のコミュニティにとって,前景運動に合わせた映像背景の生成は重要な課題である。この課題は、前景の主題の動きと外観と整合する背景と、芸術家の創造的な意図に合致する。私たちは、伝統的に面倒な手作業を必要とするこのプロセスを自動化する生成モデルであるActAnywhereを紹介します。
論文参考訳（メタデータ） (2024-01-19T17:16:16Z)
AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文参考訳（メタデータ） (2023-12-06T13:39:35Z)
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文参考訳（メタデータ） (2023-11-28T12:27:15Z)
MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。 MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文参考訳（メタデータ） (2023-11-27T18:32:31Z)
AnimateAnything: Fine-Grained Open Domain Image Animation with Motion Guidance [13.416296247896042]
本稿では,映像拡散モデルに先立って動きを利用するオープンドメイン画像アニメーション手法を提案する。本手法では,移動領域の正確な制御と移動速度を実現するため,目標となる運動領域の誘導と運動強度の誘導を導入する。オープンドメインデータセットを用いた厳密な実験により,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-11-21T03:47:54Z)
Regenerating Arbitrary Video Sequences with Distillation Path-Finding [6.687073794084539]
本稿では,開始フレーム上でユーザの好みに応じて新しいシーケンスを生成するインタラクティブなフレームワークを提案する。これを効果的に実現するために、まず、提案ネットワークであるRCFNetを用いて、与えられたビデオのフレームセットの特徴相関を学習する。そこで我々は,ソースビデオの動作方向の知識を定式化し,スムーズかつ妥当なシーケンスを推定する新しいパスフィニングアルゴリズム,SDPFを開発した。
論文参考訳（メタデータ） (2023-11-13T09:05:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。