論文の概要: Image-to-Video Diffusion: From Foundations to Open Frontiers
- arxiv url: http://arxiv.org/abs/2605.17248v1
- Date: Sun, 17 May 2026 04:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.805084
- Title: Image-to-Video Diffusion: From Foundations to Open Frontiers
- Title(参考訳): 画像とビデオの拡散: 基礎からオープンフロンティアへ
- Authors: Xianlong Wang, Wenbo Pan, Shijia Zhou, Ke Li, Yuqi Wang, Zeyu Ye, Hangtao Zhang, Leo Yu Zhang, Xiaohua Jia,
- Abstract要約: I2V(Diffusion-based textitimage-to-video)生成は、生成モデルにおいて中心的な方向性となっている。
本研究は、拡散I2V生成を独立した対象として扱う。
タスクの定式化、モデルアーキテクチャ、データセット、評価メトリクスをまずレビューし、アーキテクチャとトレーニングパラダイムに基づいた分類によって既存のメソッドを編成する。
- 参考スコア(独自算出の注目度): 39.6216019326071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based \textit{image-to-video} (I2V) generation has become a central direction in generative models by turning a reference image, with optional conditions, into a temporally coherent video. Compared with broader video generation settings, this task places stricter demands on content consistency, identity preservation, and motion coherence. Although the literature grows rapidly, existing works mostly discuss I2V generation within broader topics and still lack a dedicated taxonomy together with a systematic analysis centered on this field. This work addresses that gap by treating diffusion I2V generation as a standalone subject. It first reviews the task formulation, model architectures, datasets, and evaluation metrics, and then organizes existing methods through a taxonomy based on architecture and training paradigm. It further distills four core designs, namely condition encoding, temporal modeling, noise prior design, and spatial-temporal upsampling, and discusses representative application scenarios together with major open challenges.
- Abstract(参考訳): I2V(Diffusion-based \textit{image-to-video})の生成は、参照画像にオプション条件を伴って時間的コヒーレントなビデオに変換することで、生成モデルの中心的な方向となっている。
より広範なビデオ生成設定と比較して、このタスクはコンテンツ一貫性、アイデンティティ保存、モーションコヒーレンスに対する要求を厳格に設定する。
文献は急速に成長するが、既存の研究はほとんどがより広範なトピックにおけるI2V生成について論じており、この分野を中心とした体系的な分析とともに専門の分類学がまだ欠落している。
この研究は、拡散I2V生成を独立した対象として扱うことにより、そのギャップに対処する。
タスクの定式化、モデルアーキテクチャ、データセット、評価メトリクスをまずレビューし、アーキテクチャとトレーニングパラダイムに基づいた分類によって既存のメソッドを編成する。
さらに、条件符号化、時間的モデリング、ノイズ事前設計、空間的時間的アップサンプリングという4つのコア設計を精査し、主要なオープン課題と共に代表的アプリケーションシナリオについて議論する。
関連論文リスト
- UniVid: Pyramid Diffusion Model for High Quality Video Generation [10.349192062369088]
拡散に基づくテキスト・ツー・ビデオ生成(T2V)や画像・ツー・ビデオ生成(I2V)が注目されている。
テキストプロンプトと参照画像のハイブリッド条件を用いた統合ビデオ生成モデル(UniVid)を提案する。
論文 参考訳(メタデータ) (2026-03-14T03:51:16Z) - BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - S2DM: Sector-Shaped Diffusion Models for Video Generation [2.0270353391739637]
ビデオ生成のためのセクタ型拡散モデル(S2DM)を提案する。
S2DMは、同じ意味と本質的な特徴を共有する本質的な関連データ群を生成することができる。
追加のトレーニングなしに、我々のモデルは、他の時間的条件と統合され、生成モデルは、既存の作業と同等のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2024-03-20T08:50:15Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。