論文の概要: LUVE : Latent-Cascaded Ultra-High-Resolution Video Generation with Dual Frequency Experts
- arxiv url: http://arxiv.org/abs/2602.11564v1
- Date: Thu, 12 Feb 2026 04:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.640133
- Title: LUVE : Latent-Cascaded Ultra-High-Resolution Video Generation with Dual Frequency Experts
- Title(参考訳): LUVE : デュアル周波数エキスパートによる超高分解能ビデオ生成
- Authors: Chen Zhao, Jiawei Chen, Hongyu Li, Zhuoliang Kang, Shilin Lu, Xiaoming Wei, Kai Zhang, Jian Yang, Ying Tai,
- Abstract要約: textbfLUVEは超高解像度(UHR)ビデオ生成のためのフレームワークである。
モーション一貫性の潜伏合成、ビデオ潜伏アップサンプリング、高解像度コンテンツ改善のための3段階アーキテクチャを採用している。
LUVEは、UHRビデオ生成において優れたフォトリアリズムとコンテンツ忠実性を実現し、包括的アブレーション研究により、各コンポーネントの有効性をさらに検証した。
- 参考スコア(独自算出の注目度): 48.279914726380376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video diffusion models have significantly improved visual quality, yet ultra-high-resolution (UHR) video generation remains a formidable challenge due to the compounded difficulties of motion modeling, semantic planning, and detail synthesis. To address these limitations, we propose \textbf{LUVE}, a \textbf{L}atent-cascaded \textbf{U}HR \textbf{V}ideo generation framework built upon dual frequency \textbf{E}xperts. LUVE employs a three-stage architecture comprising low-resolution motion generation for motion-consistent latent synthesis, video latent upsampling that performs resolution upsampling directly in the latent space to mitigate memory and computational overhead, and high-resolution content refinement that integrates low-frequency and high-frequency experts to jointly enhance semantic coherence and fine-grained detail generation. Extensive experiments demonstrate that our LUVE achieves superior photorealism and content fidelity in UHR video generation, and comprehensive ablation studies further validate the effectiveness of each component. The project is available at \href{https://unicornanrocinu.github.io/LUVE_web/}{https://github.io/LUVE/}.
- Abstract(参考訳): 映像拡散モデルの最近の進歩は、視覚的品質を大幅に向上させたが、モーションモデリング、セマンティックプランニング、詳細合成の難しさにより、超高解像度(UHR)ビデオ生成は深刻な課題となっている。
これらの制約に対処するために、二重周波数の \textbf{E}xperts 上に構築された \textbf{L}atent-cascaded \textbf{U}HR \textbf{V}ideo 生成フレームワークである \textbf{LUVE} を提案する。
LUVEは、動きに一貫性のある潜在合成のための低分解能モーション生成と、記憶と計算オーバーヘッドを軽減するために潜時空間で直接解像度アップサンプリングを行うビデオ潜時アップサンプリングと、低周波および高周波の専門家を統合してセマンティックコヒーレンスと細かな詳細生成を共同で強化する高分解能コンテンツ改善を含む3段階のアーキテクチャを採用している。
広汎な実験により、UHRビデオ生成において、我々のLUVEは優れたフォトリアリズムとコンテンツ忠実性を実現し、包括的アブレーション研究により、各コンポーネントの有効性がさらに検証された。
このプロジェクトは \href{https://unicornanrocinu.github.io/LUVE_web/}{https://github.io/LUVE/} で公開されている。
関連論文リスト
- One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion [57.824020826432815]
スパース画像から高忠実性ノベルビュー合成(NVS)を実現するための新しいフレームワークを提案する。
ViTバックボーンによって制限されることなく高解像度画像を処理できるデュアルドメイン詳細知覚モジュールを設計する。
我々は,修復過程において高周波の詳細を保存できる特徴誘導拡散ネットワークを開発した。
論文 参考訳(メタデータ) (2026-01-20T17:11:55Z) - Semantic and Temporal Integration in Latent Diffusion Space for High-Fidelity Video Super-Resolution [20.151571582095468]
我々はSeTe-VSR(Semantic and Temporal Guided Video Super-Resolution)を提案する。
本手法は複雑な詳細の復元と時間的コヒーレンス確保のシームレスなバランスを実現する。
提案手法は高精細な視覚コンテンツを保存するだけでなく,忠実度を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-01T09:47:35Z) - Latent Wavelet Diffusion For Ultra-High-Resolution Image Synthesis [56.311477476580926]
超高分解能(2K-4K)画像合成におけるディテールとテクスチャの忠実度を大幅に向上させる軽量トレーニングフレームワークであるLatent Wavelet Diffusion (LWD)を提案する。
LWDはウェーブレットエネルギーマップから導かれる新しい周波数対応マスキング戦略を導入し、潜在空間の詳細な領域にトレーニングプロセスを動的に焦点をあてる。
論文 参考訳(メタデータ) (2025-05-31T07:28:32Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations [25.756755602342942]
本稿では,この学習負担を段階的学習を通じて体系的に分解するプログレッシブ・ラーニング・ストラテジー(PLS)を特徴とするDiffVSRを提案する。
我々のフレームワークには、追加のトレーニングオーバーヘッドを伴わずに競合時間一貫性を維持するILT(Interweaved Latent Transition)技術も組み込まれています。
論文 参考訳(メタデータ) (2025-01-17T10:53:03Z) - STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution [42.859188375578604]
画像拡散モデルは、GAN法における過平滑化問題に対処するために、実世界のビデオ超解像に適応している。
これらのモデルは静的イメージでトレーニングされるため、時間的一貫性を維持するのに苦労する。
我々は,現実的な空間的詳細と強靭な時間的整合性を達成し,T2Vモデルを現実の超解像に活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T12:36:21Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Towards Interpretable Video Super-Resolution via Alternating
Optimization [115.85296325037565]
低フレームのぼかしビデオから高フレームの高解像度のシャープビデオを生成することを目的とした実時間ビデオ超解法(STVSR)問題について検討する。
本稿では,モデルベースと学習ベースの両方の手法を用いて,解釈可能なSTVSRフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T21:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。