論文の概要: CineScale: Free Lunch in High-Resolution Cinematic Visual Generation
- arxiv url: http://arxiv.org/abs/2508.15774v1
- Date: Thu, 21 Aug 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.448045
- Title: CineScale: Free Lunch in High-Resolution Cinematic Visual Generation
- Title(参考訳): CineScale:高分解能映像生成におけるフリーランチ
- Authors: Haonan Qiu, Ning Yu, Ziqi Huang, Paul Debevec, Ziwei Liu,
- Abstract要約: 我々は,高解像度な視覚生成を実現するための新しい推論パラダイムであるCineScaleを提案する。
提案手法は,8k画像生成を微調整なしで実現し,最小限のLoRA微調整で4kビデオ生成を実現する。
- 参考スコア(独自算出の注目度): 42.81729840016782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual diffusion models achieve remarkable progress, yet they are typically trained at limited resolutions due to the lack of high-resolution data and constrained computation resources, hampering their ability to generate high-fidelity images or videos at higher resolutions. Recent efforts have explored tuning-free strategies to exhibit the untapped potential higher-resolution visual generation of pre-trained models. However, these methods are still prone to producing low-quality visual content with repetitive patterns. The key obstacle lies in the inevitable increase in high-frequency information when the model generates visual content exceeding its training resolution, leading to undesirable repetitive patterns deriving from the accumulated errors. In this work, we propose CineScale, a novel inference paradigm to enable higher-resolution visual generation. To tackle the various issues introduced by the two types of video generation architectures, we propose dedicated variants tailored to each. Unlike existing baseline methods that are confined to high-resolution T2I and T2V generation, CineScale broadens the scope by enabling high-resolution I2V and V2V synthesis, built atop state-of-the-art open-source video generation frameworks. Extensive experiments validate the superiority of our paradigm in extending the capabilities of higher-resolution visual generation for both image and video models. Remarkably, our approach enables 8k image generation without any fine-tuning, and achieves 4k video generation with only minimal LoRA fine-tuning. Generated video samples are available at our website: https://eyeline-labs.github.io/CineScale/.
- Abstract(参考訳): 視覚拡散モデルは目覚ましい進歩を遂げるが、通常、高解像度のデータと制約された計算資源の不足のために限られた解像度で訓練され、高解像度の画像やビデオを高解像度で生成する能力を妨げている。
最近の研究は、未解決の事前学習モデルの高解像度視覚生成を示すためのチューニングフリー戦略について検討している。
しかし、これらの手法は繰り返しパターンで低品質の視覚コンテンツを制作する傾向にある。
重要な障害は、トレーニングの解像度を超える視覚的コンテンツを生成するモデルが、蓄積されたエラーから引き起こされる望ましくない反復パターンをもたらすとき、高周波情報の必然的に増加することである。
本研究では,高分解能な視覚生成を実現するための新しい推論パラダイムであるCineScaleを提案する。
2種類のビデオ生成アーキテクチャによってもたらされる様々な問題に対処するために,我々はそれぞれに適した専用変種を提案する。
高解像度のT2IとT2V生成に限定される既存のベースラインメソッドとは異なり、CineScaleは、最先端のオープンソースビデオ生成フレームワーク上に構築された高解像度のI2VとV2V合成を可能にすることで、スコープを広げる。
画像モデルとビデオモデルの両方において、高解像度の視覚生成能力を拡張する上で、我々のパラダイムの優位性を検証する。
そこで本手法は,8k画像生成を微調整なしで実現し,最小限のLoRA微細調整で4kビデオ生成を実現する。
生成したビデオサンプルは、私たちのWebサイト(https://eyeline-labs.github.io/CineScale/)で入手可能です。
関連論文リスト
- Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis [12.160537328404622]
textttDRA-Ctrlはリソース集約型ビデオモデルの再利用に関する新たな洞察を提供する。
textttDRA-Ctrlは、視覚的モダリティにまたがる将来の統一された生成モデルの基礎を築いている。
論文 参考訳(メタデータ) (2025-05-29T10:34:45Z) - CascadeV: An Implementation of Wurstchen Architecture for Video Generation [4.086317089863318]
本稿では,最先端の2K解像度ビデオを生成することができるLDM(Latent diffusion model)を提案する。
実験により, 高い圧縮比を達成でき, 高品質ビデオ生成に伴う計算課題を大幅に削減できることが示された。
我々のモデルは既存のT2Vモデルとカスケードすることができ、理論的には、微調整なしで4$times$の解像度やフレームを毎秒増加させることができる。
論文 参考訳(メタデータ) (2025-01-28T01:14:24Z) - FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion [50.43304425256732]
FreeScaleは、スケール融合による高解像度のビジュアル生成を可能にする、チューニング不要な推論パラダイムである。
画像モデルとビデオモデルの両方において高解像度の視覚生成機能を拡張する。
論文 参考訳(メタデータ) (2024-12-12T18:59:59Z) - Elevating Flow-Guided Video Inpainting with Reference Generation [50.03502211226332]
ビデオインパインティング(VI)は、フレーム間で観測可能なコンテンツを効果的に伝播させながら、オリジナルビデオに存在しない新しいコンテンツを同時に生成する必要がある課題である。
本稿では,より進んだ画素伝搬アルゴリズムと組み合わせて,参照生成のための大規模な生成モデルを活用する,堅牢で実用的なVIフレームワークを提案する。
提案手法は,オブジェクト削除のためのフレームレベルの品質を著しく向上するだけでなく,ユーザが提供するテキストプロンプトに基づいて,欠落した領域の新たなコンテンツを合成する。
論文 参考訳(メタデータ) (2024-12-12T06:13:00Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。
提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。