論文の概要: Every Painting Awakened: A Training-free Framework for Painting-to-Animation Generation
- arxiv url: http://arxiv.org/abs/2503.23736v1
- Date: Mon, 31 Mar 2025 05:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:33:42.712375
- Title: Every Painting Awakened: A Training-free Framework for Painting-to-Animation Generation
- Title(参考訳): すべての絵画が目覚めた: 絵画からアニメーション生成のためのトレーニング不要のフレームワーク
- Authors: Lingyu Liu, Yaxiong Wang, Li Zhu, Zhedong Zheng,
- Abstract要約: I2V(Image-to-Video)合成により,実世界の静的絵画を生かしたトレーニングフリーフレームワークを提案する。
既存のI2V手法は、主に自然なビデオデータセットに基づいて訓練されており、静的な絵画から動的出力を生成するのに苦労することが多い。
我々のフレームワークは既存のI2V手法とプラグイン・アンド・プレイの統合を可能にし、現実世界の絵画をアニメーション化するのに理想的なソリューションとなる。
- 参考スコア(独自算出の注目度): 25.834500552609136
- License:
- Abstract: We introduce a training-free framework specifically designed to bring real-world static paintings to life through image-to-video (I2V) synthesis, addressing the persistent challenge of aligning these motions with textual guidance while preserving fidelity to the original artworks. Existing I2V methods, primarily trained on natural video datasets, often struggle to generate dynamic outputs from static paintings. It remains challenging to generate motion while maintaining visual consistency with real-world paintings. This results in two distinct failure modes: either static outputs due to limited text-based motion interpretation or distorted dynamics caused by inadequate alignment with real-world artistic styles. We leverage the advanced text-image alignment capabilities of pre-trained image models to guide the animation process. Our approach introduces synthetic proxy images through two key innovations: (1) Dual-path score distillation: We employ a dual-path architecture to distill motion priors from both real and synthetic data, preserving static details from the original painting while learning dynamic characteristics from synthetic frames. (2) Hybrid latent fusion: We integrate hybrid features extracted from real paintings and synthetic proxy images via spherical linear interpolation in the latent space, ensuring smooth transitions and enhancing temporal consistency. Experimental evaluations confirm that our approach significantly improves semantic alignment with text prompts while faithfully preserving the unique characteristics and integrity of the original paintings. Crucially, by achieving enhanced dynamic effects without requiring any model training or learnable parameters, our framework enables plug-and-play integration with existing I2V methods, making it an ideal solution for animating real-world paintings. More animated examples can be found on our project website.
- Abstract(参考訳): I2V(Image-to-Video)合成によって現実の静的絵画を生かし、原画に忠実さを保ちながら、これらの動きをテキストガイダンスと整合させるという永続的な課題に対処する。
既存のI2V手法は、主に自然なビデオデータセットに基づいて訓練されており、静的な絵画から動的出力を生成するのに苦労することが多い。
現実の絵画との視覚的整合性を保ちながら、動きを生み出すことは依然として困難である。
この結果、テキストベースの動作解釈の制限による静的出力と、現実の芸術スタイルとの整合性の欠如によって引き起こされる歪んだダイナミクスの2つの異なる障害モードが生じる。
我々は、事前訓練された画像モデルの高度なテキスト画像アライメント機能を活用し、アニメーションプロセスのガイドを行う。
提案手法は,(1)デュアルパススコア蒸留(Dual-path score distillation): 実データと合成データの両方から動作先行情報を蒸留するデュアルパスアーキテクチャを用いて,合成フレームから動的特性を学習しながら,原画からの静的な詳細を保存する。
2) ハイブリッド潜伏核融合: 実際の絵画と合成プロキシ画像から抽出したハイブリッド特徴を, 潜伏空間における球状線形補間を通じて統合し, 滑らかな遷移と時間的整合性の向上を図る。
実験により,本手法は原画の特徴と整合性を忠実に保ちながら,テキストプロンプトとのセマンティックアライメントを著しく改善することを確認した。
重要なことは、モデルトレーニングや学習可能なパラメータを必要とせずに強化されたダイナミックエフェクトを実現することで、既存のI2Vメソッドとのプラグアンドプレイ統合を可能にし、現実世界の絵画をアニメーションするための理想的な解決策となる。
よりアニメーション化された例は、プロジェクトのWebサイトにある。
関連論文リスト
- Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with
Image Diffusion Model [57.855362366674264]
そこで我々は,ポーズやテキストによる手動動画を製作するためのDancing Avatarを提案する。
提案手法では,事前学習したT2I拡散モデルを用いて,各映像フレームを自己回帰的に生成する。
論文 参考訳(メタデータ) (2023-08-15T13:00:42Z) - Text-Guided Synthesis of Eulerian Cinemagraphs [81.20353774053768]
テキスト記述からシネマグラフを作成する完全自動化された方法であるText2Cinemagraphを紹介する。
連続した動きと反復的なテクスチャを示す流れの川や漂流する雲などの流体要素のシネマグラフに焦点を当てる。
論文 参考訳(メタデータ) (2023-07-06T17:59:31Z) - Unsupervised Learning of Style-Aware Facial Animation from Real Acting
Performances [3.95944314850151]
本稿では, ブレンド形状, 動的テクスチャ, ニューラルレンダリングに基づく写真リアルな頭部モデルのテキスト/音声駆動アニメーションのための新しい手法を提案する。
本手法は,テキストや音声をアニメーションパラメータの列に変換する条件付きCNNに基づいている。
リアルなリアルタイムレンダリングのために、私たちは、改良された色と前景マットを演算することで、ピクセル化ベースのレンダリングを洗練するU-Netを訓練します。
論文 参考訳(メタデータ) (2023-06-16T17:58:04Z) - Improving the Perceptual Quality of 2D Animation Interpolation [37.04208600867858]
伝統的な2Dアニメーションは労働集約的であり、しばしばアニメーターは1秒間に12枚のイラストを描く必要がある。
低いフレームレートは大きな変位と閉塞をもたらし、例えばラインやソリッドカラー領域のような個々の知覚要素は、テクスチャ指向の畳み込みネットワークに困難をもたらす。
以前の研究はこれらの問題に対処しようとしたが、計算不能なメソッドを使用し、ピクセル完全性能に重点を置いていた。
私たちは、この芸術領域の知覚的品質を重視した、より適切なスケーラブルなシステムを構築します。
論文 参考訳(メタデータ) (2021-11-24T20:51:29Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。