論文の概要: SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation
- arxiv url: http://arxiv.org/abs/2605.06356v1
- Date: Thu, 07 May 2026 14:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.910063
- Title: SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation
- Title(参考訳): SwiftI2V: 条件付きセグメントワイズ生成による高解像度高分解能映像生成
- Authors: YaoYang Liu, Yuechen Zhang, Wenbo Li, Yufei Zhao, Rui Liu, Long Chen,
- Abstract要約: 高解像度画像対ビデオ(I2V)生成は、入力画像のきめ細かい外観を保ちながら、現実的な時間的ダイナミクスを合成することを目的としている。
1) エンド・ツー・エンドのモデルはしばしばメモリとレイテンシーにおいて著しく高価である; 2) 汎用ビデオ超解像による低解像度生成は、詳細を幻覚させ、入力固有の局所構造からドリフトする傾向がある。
我々は高解像度I2Vに適した効率的なフレームワークであるSwiftI2Vを提案する。
- 参考スコア(独自算出の注目度): 17.915677925345722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution image-to-video (I2V) generation aims to synthesize realistic temporal dynamics while preserving fine-grained appearance details of the input image. At 2K resolution, it becomes extremely challenging, and existing solutions suffer from various weaknesses: 1) end-to-end models are often prohibitively expensive in memory and latency; 2) cascading low-resolution generation with a generic video super-resolution tends to hallucinate details and drift from input-specific local structures, since the super-resolution stage is not explicitly conditioned on the input image. To this end, we propose SwiftI2V, an efficient framework tailored for high-resolution I2V. Following the widely used two-stage design, it addresses the efficiency--fidelity dilemma by first generating a low-resolution motion reference to reduce token costs and ease the modeling burden, then performing a strongly image-conditioned 2K synthesis guided by the motion to recover input-faithful details with controlled overhead. Specifically, to make generation more scalable, SwiftI2V introduces Conditional Segment-wise Generation (CSG) to synthesize videos segment-by-segment with a bounded per-step token budget, and adopts bidirectional contextual interaction within each segment to improve cross-segment coherence and input fidelity. On VBench-I2V at 2K resolution, SwiftI2V achieves performance comparable to end-to-end baselines while reducing total GPU-time by 202x. Particularly, it enables practical 2K I2V generation on a single datacenter GPU (e.g., H800) or consumer GPU (e.g., RTX 4090).
- Abstract(参考訳): 高解像度画像対ビデオ(I2V)生成は、入力画像のきめ細かい外観を保ちながら、現実的な時間的ダイナミクスを合成することを目的としている。
2K解像度では、非常に困難になり、既存のソリューションは様々な弱点に悩まされる。
1) エンド・ツー・エンドのモデルはメモリとレイテンシーにおいてしばしば高額である。
2) 汎用ビデオ超解像を用いたカスケード低分解能発生は, 入力画像に高分解能ステージが明示的に条件付けられていないため, 入力固有の局所構造から細部やドリフトを幻覚させる傾向がある。
この目的のために,高解像度I2Vに適した効率的なフレームワークであるSwiftI2Vを提案する。
広く使われている2段階設計に続いて、トークンコストを低減し、モデリングの負担を軽減するために、まず低解像度のモーション参照を生成し、次に、モーションによって誘導される強いイメージ条件の2K合成を実行し、制御されたオーバーヘッドで入力に忠実な詳細を回復することで、効率性のジレンマに対処する。
具体的には、生成をよりスケーラブルにするために、SwiftI2Vでは、Conditional Segment-wise Generation(CSG)を導入して、ビデオセグメントごとのセグメンテーションを境界付きトークン予算で合成し、各セグメント内で双方向のコンテキストインタラクションを採用して、クロスセグメントのコヒーレンスと入力フィデリティを改善する。
2K解像度でのVBench-I2Vでは、SwiftI2Vは、エンドツーエンドのベースラインに匹敵するパフォーマンスを実現し、GPU全体の時間を202倍に削減する。
特に、単一のデータセンタGPU(例えば、H800)またはコンシューマGPU(例えば、RTX 4090)上で、実用的な2K I2V生成を可能にする。
関連論文リスト
- ViBe: Ultra-High-Resolution Video Synthesis Born from Pure Images [30.646542711556787]
トランスフォーマーに基づくビデオ拡散モデルは、空間的および時間的トークンに対する3次元の注意に依存している。
我々は,高解像度映像を合成するために,ネイティブスケールで事前学習したビデオ拡散変換器をアップグレードする純粋な画像適応フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-24T15:27:22Z) - UltraGen: High-Resolution Video Generation with Hierarchical Attention [62.99161115650818]
UltraGenは、(i)効率的で(i)ネイティブな高解像度ビデオ合成を可能にする、新しいビデオ生成フレームワークである。
我々は,UltraGenが事前学習した低解像度ビデオモデルを1080P,さらに4K解像度に効果的に拡張できることを実証した。
論文 参考訳(メタデータ) (2025-10-21T16:23:21Z) - Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis [50.77548592888096]
2Kビデオ合成の需要は、超明快なビジュアルに対する消費者の期待が高まるにつれて増大している。
Turbo2Kはディテールリッチな2Kビデオを生成するための効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-04-20T03:30:59Z) - STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution [42.859188375578604]
画像拡散モデルは、GAN法における過平滑化問題に対処するために、実世界のビデオ超解像に適応している。
これらのモデルは静的イメージでトレーニングされるため、時間的一貫性を維持するのに苦労する。
我々は,現実的な空間的詳細と強靭な時間的整合性を達成し,T2Vモデルを現実の超解像に活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T12:36:21Z) - LTX-Video: Realtime Video Latent Diffusion [4.7789714048042775]
LTX-Videoはトランスフォーマーベースの潜在拡散モデルである。
Video-VAEとDenoising Transformerをシームレスに統合する。
Nvidia H100 GPU上では、24fpsのビデオ768 atx512の解像度をわずか2秒で生成する。
論文 参考訳(メタデータ) (2024-12-30T19:00:25Z) - I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。
I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文 参考訳(メタデータ) (2023-12-27T19:11:50Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。