論文の概要: ViBe: Ultra-High-Resolution Video Synthesis Born from Pure Images
- arxiv url: http://arxiv.org/abs/2603.23326v1
- Date: Tue, 24 Mar 2026 15:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.56183
- Title: ViBe: Ultra-High-Resolution Video Synthesis Born from Pure Images
- Title(参考訳): ViBe:純正画像から生まれた超高分解能ビデオ合成
- Authors: Yunfeng Wu, Hongying Cheng, Zihao He, Songhua Liu,
- Abstract要約: トランスフォーマーに基づくビデオ拡散モデルは、空間的および時間的トークンに対する3次元の注意に依存している。
我々は,高解像度映像を合成するために,ネイティブスケールで事前学習したビデオ拡散変換器をアップグレードする純粋な画像適応フレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.646542711556787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based video diffusion models rely on 3D attention over spatial and temporal tokens, which incurs quadratic time and memory complexity and makes end-to-end training for ultra-high-resolution videos prohibitively expensive. To overcome this bottleneck, we propose a pure image adaptation framework that upgrades a video Diffusion Transformer pre-trained at its native scale to synthesize higher-resolution videos. Unfortunately, naively fine-tuning with high-resolution images alone often introduces noticeable noise due to the image-video modality gap. To address this, we decouple the learning objective to separately handle modality alignment and spatial extrapolation. At the core of our approach is Relay LoRA, a two-stage adaptation strategy. In the first stage, the video diffusion model is adapted to the image domain using low-resolution images to bridge the modality gap. In the second stage, the model is further adapted with high-resolution images to acquire spatial extrapolation capability. During inference, only the high-resolution adaptation is retained to preserve the video generation modality while enabling high-resolution video synthesis. To enhance fine-grained detail synthesis, we further propose a High-Frequency-Awareness-Training-Objective, which explicitly encourages the model to recover high-frequency components from degraded latent representations via a dedicated reconstruction loss. Extensive experiments demonstrate that our method produces ultra-high-resolution videos with rich visual details without requiring any video training data, even outperforming previous state-of-the-art models trained on high-resolution videos by 0.8 on the VBench benchmark. Code will be available at https://github.com/WillWu111/ViBe.
- Abstract(参考訳): トランスフォーマーベースのビデオ拡散モデルは、空間的および時間的トークンに対する3Dの注意に依存しており、これは2次時間とメモリの複雑さを引き起こし、超高解像度ビデオに対するエンドツーエンドのトレーニングを違法に高価にする。
このボトルネックを克服するため,本研究では,高解像度映像を合成するために,ネイティブスケールで事前学習したビデオ拡散変換器をアップグレードする純粋な画像適応フレームワークを提案する。
残念なことに、高解像度画像のみによる微調整は、画像とビデオのモダリティのギャップによって目立ったノイズをもたらすことが多い。
これを解決するために、学習対象を分離し、モダリティアライメントと空間外挿を別々に扱う。
このアプローチのコアとなるのは,2段階の適応戦略であるRelay LoRAです。
第1段階では、低解像度画像を用いて映像拡散モデルを画像領域に適応させ、モダリティギャップをブリッジする。
第2段階では、モデルはさらに高解像度の画像に適応し、空間外挿能力を得る。
推論中は、高分解能な映像合成を実現しつつ、映像生成のモダリティを維持するために、高分解能な適応のみを保持する。
細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部まで細部
広汎な実験により,VBenchベンチマークで0.8倍の高精細度ビデオでトレーニングされた従来の最先端モデルよりも優れ,ビデオトレーニングデータを必要としない高精細度映像を高精細度で生成できることが示されている。
コードはhttps://github.com/WillWu111/ViBe.comから入手できる。
関連論文リスト
- CineScale: Free Lunch in High-Resolution Cinematic Visual Generation [42.81729840016782]
我々は,高解像度な視覚生成を実現するための新しい推論パラダイムであるCineScaleを提案する。
提案手法は,8k画像生成を微調整なしで実現し,最小限のLoRA微調整で4kビデオ生成を実現する。
論文 参考訳(メタデータ) (2025-08-21T17:59:57Z) - Super-Resolution Generative Adversarial Networks based Video Enhancement [0.40964539027092906]
本研究は、通常のシングルイメージSIS(SRGAN)構造を拡張して、対数データを扱うことで、ビデオ超解像への拡張アプローチを導入する。
3次元非局所ブロックを組み込んだ修正フレームワークが開発され、空間次元と時間次元の両方で関係を捉えることができる。
その結果、従来の単一画像法と比較して、時間的コヒーレンス、よりシャープなテクスチャ、視覚的アーティファクトが向上した。
論文 参考訳(メタデータ) (2025-05-14T20:16:51Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。
提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - High Fidelity Interactive Video Segmentation Using Tensor Decomposition
Boundary Loss Convolutional Tessellations and Context Aware Skip Connections [0.0]
対話型ビデオセグメンテーションタスクのための高忠実度ディープラーニングアルゴリズム(HyperSeg)を提供する。
我々のモデルは、ダウンサンプリングやプールの手順を使わずに、すべての画像特徴を高解像度で処理し、レンダリングする。
私たちの作業は、VFXパイプラインや医療画像の規律など、幅広いアプリケーション領域で使用することができます。
論文 参考訳(メタデータ) (2020-11-23T18:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。