論文の概要: AnyI2V: Animating Any Conditional Image with Motion Control
- arxiv url: http://arxiv.org/abs/2507.02857v1
- Date: Thu, 03 Jul 2025 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.87541
- Title: AnyI2V: Animating Any Conditional Image with Motion Control
- Title(参考訳): AnyI2V: モーションコントロールによる任意の条件画像のアニメーション
- Authors: Ziye Li, Hao Luo, Xincheng Shuai, Henghui Ding,
- Abstract要約: 我々は,任意の条件付き画像をユーザ定義のモーショントラジェクトリと一致させる,トレーニング不要のフレームワークであるAnyI2Vを提案する。
実験により、提案したAnyI2Vは優れた性能を示し、空間及びモーション制御ビデオ生成における新たな視点を提供する。
- 参考スコア(独自算出の注目度): 25.49332963076066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in video generation, particularly in diffusion models, have driven notable progress in text-to-video (T2V) and image-to-video (I2V) synthesis. However, challenges remain in effectively integrating dynamic motion signals and flexible spatial constraints. Existing T2V methods typically rely on text prompts, which inherently lack precise control over the spatial layout of generated content. In contrast, I2V methods are limited by their dependence on real images, which restricts the editability of the synthesized content. Although some methods incorporate ControlNet to introduce image-based conditioning, they often lack explicit motion control and require computationally expensive training. To address these limitations, we propose AnyI2V, a training-free framework that animates any conditional images with user-defined motion trajectories. AnyI2V supports a broader range of modalities as the conditional image, including data types such as meshes and point clouds that are not supported by ControlNet, enabling more flexible and versatile video generation. Additionally, it supports mixed conditional inputs and enables style transfer and editing via LoRA and text prompts. Extensive experiments demonstrate that the proposed AnyI2V achieves superior performance and provides a new perspective in spatial- and motion-controlled video generation. Code is available at https://henghuiding.com/AnyI2V/.
- Abstract(参考訳): 近年の映像生成,特に拡散モデルの発展は,テキスト・トゥ・ビデオ(T2V)と画像・トゥ・ビデオ(I2V)合成において顕著な進歩をもたらした。
しかし、ダイナミックモーション信号とフレキシブル空間制約を効果的に統合する上での課題は残る。
既存のT2Vメソッドは通常テキストプロンプトに依存しており、生成されたコンテンツの空間的レイアウトの正確な制御を欠いている。
対照的に、I2V法は実際の画像への依存によって制限され、合成されたコンテンツの編集性を制限する。
イメージベースのコンディショニングを導入するためにControlNetを組み込む方法もあるが、明示的なモーションコントロールが欠如しており、計算コストのかかるトレーニングを必要とすることが多い。
これらの制約に対処するために,ユーザ定義のモーショントラジェクトリと条件付き画像とを一致させる,トレーニング不要のフレームワークであるAnyI2Vを提案する。
AnyI2Vは、ControlNetがサポートしていないメッシュやポイントクラウドなどのデータタイプを含む、条件付きイメージとして幅広いモダリティをサポートしており、より柔軟で汎用的なビデオ生成を可能にしている。
さらに、混合条件入力をサポートし、LoRAとテキストプロンプトによるスタイル転送と編集を可能にする。
広汎な実験により、提案したAnyI2Vは優れた性能を示し、空間及びモーション制御ビデオ生成における新たな視点を提供する。
コードはhttps://henghuiding.com/AnyI2V/.comで入手できる。
関連論文リスト
- Incorporating Flexible Image Conditioning into Text-to-Video Diffusion Models without Training [27.794381157153776]
フレキシブル・ビジュアル・コンディショニングによるTI2V生成のための統一型定式化を提案する。
我々は、任意の量の画像に対してT2V基礎モデルを条件付けることができるFlexTI2Vと呼ばれる革新的なトレーニングフリーアプローチを提案する。
本手法は,従来のトレーニング不要の画像条件付け手法を顕著なマージンで上回っている。
論文 参考訳(メタデータ) (2025-05-27T02:16:06Z) - Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think [24.308538128761985]
Image-to-Video(I2V)生成は、所定の画像と条件(テキストなど)に応じてビデオクリップを合成することを目的としている。
このタスクの主な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。
本稿では,I2V領域にモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-02T16:06:16Z) - VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像とビデオの正確な生成のための新しいフレームワークである。
カメラの動き、物体の動き、照明方向を同時に制御できる。
高品質なビデオコンテンツを生成し、粒度と視覚的コヒーレンスを制御する最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-02-11T13:11:59Z) - Motion-I2V: Consistent and Controllable Image-to-Video Generation with
Explicit Motion Modeling [62.19142543520805]
Motion-I2Vは、一貫した制御可能な画像対ビデオ生成のためのフレームワークである。
I2Vを2段階に分解し、明示的なモーションモデリングを行う。
Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの変換を自然にサポートしている。
論文 参考訳(メタデータ) (2024-01-29T09:06:43Z) - I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。
I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文 参考訳(メタデータ) (2023-12-27T19:11:50Z) - SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。
トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。
提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文 参考訳(メタデータ) (2023-11-28T16:33:08Z) - ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。
ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。
提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-11T17:46:28Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。