論文の概要: UniVid: Pyramid Diffusion Model for High Quality Video Generation
- arxiv url: http://arxiv.org/abs/2603.13739v1
- Date: Sat, 14 Mar 2026 03:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.373418
- Title: UniVid: Pyramid Diffusion Model for High Quality Video Generation
- Title(参考訳): UniVid:高品質ビデオ生成のためのピラミッド拡散モデル
- Authors: Xinyu Xiao, Binbin Yang, Tingtian Li, Yipeng Yu, Sen Lei,
- Abstract要約: 拡散に基づくテキスト・ツー・ビデオ生成(T2V)や画像・ツー・ビデオ生成(I2V)が注目されている。
テキストプロンプトと参照画像のハイブリッド条件を用いた統合ビデオ生成モデル(UniVid)を提案する。
- 参考スコア(独自算出の注目度): 10.349192062369088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based text-to-video generation (T2V) or image-to-video (I2V) generation have emerged as a prominent research focus. However, there exists a challenge in integrating the two generative paradigms into a unified model. In this paper, we present a unified video generation model (UniVid) with hybrid conditions of the text prompt and reference image. Given these two available controls, our model can extract objects' appearance and their motion descriptions from textual prompts, while obtaining texture details and structural information from image clues to guide the video generation process. Specifically, we scale up the pre-trained text-to-image diffusion model for generating temporally coherent frames via introducing our temporal-pyramid cross-frame spatial-temporal attention modules and convolutions. To support bimodal control, we introduce a dual-stream cross-attention mechanism, whose attention scores can be freely re-weighted for interpolation of between single and two modalities controls during inference. Extensive experiments showcase that our UniVid achieves superior temporal coherence on T2V, I2V and (T+I)2V tasks.
- Abstract(参考訳): 拡散に基づくテキスト・ツー・ビデオ生成(T2V)や画像・ツー・ビデオ生成(I2V)が注目されている。
しかし、2つの生成パラダイムを統一モデルに統合することは困難である。
本稿では,テキストプロンプトと参照画像のハイブリッド条件を備えた統合ビデオ生成モデル(UniVid)を提案する。
これら2つのコントロールが利用可能であることから,本モデルでは,テクスチャの詳細と構造情報を画像手がかりから取得し,映像生成プロセスのガイドとして,オブジェクトの外観と動作記述をテキストプロンプトから抽出することができる。
具体的には、時間的ピラミドの空間的注意モジュールと畳み込みを導入し、時間的コヒーレントなフレームを生成するための事前学習されたテキスト・画像拡散モデルをスケールアップする。
バイモーダル制御を支援するために,単一モードと2つのモードの相互補間に注意点を自由に重み付けできる2列クロスアテンション機構を導入する。
我々のUniVidは,T2V,I2V,(T+I)2Vタスクにおいて,時間的コヒーレンスに優れることを示した。
関連論文リスト
- FrameBridge: Improving Image-to-Video Generation with Bridge Models [21.888786343816875]
拡散モデルは画像間(I2V)生成において顕著な進歩を遂げた。
彼らのノイズ・ツー・データ生成プロセスは、本質的にこのタスクと一致していないため、最適下合成の品質につながる可能性がある。
フレーム・ツー・フレーム生成過程をブリッジモデルに基づくデータ・ツー・データ生成プロセスでモデル化することにより、与えられた画像に含まれる情報を完全に活用することができる。
論文 参考訳(メタデータ) (2024-10-20T12:10:24Z) - FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [3.6519202494141125]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。
CTGMは、TII(Temporal Information)とTAR(Temporal Affinity Refiner)をクロスアテンションの開始と終了に組み込んでいる。
提案手法は,EvalCrafterベンチマークを用いて,最先端のT2V生成結果を実現する。
論文 参考訳(メタデータ) (2024-08-15T14:47:44Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - S2DM: Sector-Shaped Diffusion Models for Video Generation [2.0270353391739637]
ビデオ生成のためのセクタ型拡散モデル(S2DM)を提案する。
S2DMは、同じ意味と本質的な特徴を共有する本質的な関連データ群を生成することができる。
追加のトレーニングなしに、我々のモデルは、他の時間的条件と統合され、生成モデルは、既存の作業と同等のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2024-03-20T08:50:15Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。
I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文 参考訳(メタデータ) (2023-12-27T19:11:50Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。