論文の概要: UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2510.08143v1
- Date: Thu, 09 Oct 2025 12:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.064192
- Title: UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution
- Title(参考訳): UniMMVSR: カスケードビデオ超解法のための統一マルチモーダルフレームワーク
- Authors: Shian Du, Menghan Xia, Chang Liu, Quande Liu, Xintao Wang, Pengfei Wan, Xiangyang Ji,
- Abstract要約: カスケードビデオ超解像は、大規模な基礎モデルを用いて高解像度ビデオを生成するための有望な技術として登場した。
UniMMVSRは,テキスト,画像,ビデオを含むハイブリッドモード条件を組み込んだ最初の統合ビデオ超解像フレームワークである。
実験の結果、UniMMVSRは既存の手法よりも優れており、より細部が良く、マルチモーダル条件への適合度が高いビデオを生成することがわかった。
- 参考スコア(独自算出の注目度): 62.10676832966289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cascaded video super-resolution has emerged as a promising technique for decoupling the computational burden associated with generating high-resolution videos using large foundation models. Existing studies, however, are largely confined to text-to-video tasks and fail to leverage additional generative conditions beyond text, which are crucial for ensuring fidelity in multi-modal video generation. We address this limitation by presenting UniMMVSR, the first unified generative video super-resolution framework to incorporate hybrid-modal conditions, including text, images, and videos. We conduct a comprehensive exploration of condition injection strategies, training schemes, and data mixture techniques within a latent video diffusion model. A key challenge was designing distinct data construction and condition utilization methods to enable the model to precisely utilize all condition types, given their varied correlations with the target video. Our experiments demonstrate that UniMMVSR significantly outperforms existing methods, producing videos with superior detail and a higher degree of conformity to multi-modal conditions. We also validate the feasibility of combining UniMMVSR with a base model to achieve multi-modal guided generation of 4K video, a feat previously unattainable with existing techniques.
- Abstract(参考訳): カスケードビデオ超解像は,大規模基礎モデルを用いた高解像度ビデオの生成に伴う計算負担を解消する,有望な手法として登場した。
しかし、既存の研究は、主にテキストからビデオへのタスクに限られており、テキスト以外の生成条件を活用できないため、マルチモーダルビデオ生成における忠実性の確保に不可欠である。
テキスト,画像,ビデオを含むハイブリッドモード条件を組み込んだ,最初の統合生成ビデオ超解像フレームワークであるUniMMVSRを提案することで,この制限に対処する。
我々は、潜伏映像拡散モデルにおいて、条件注入戦略、トレーニングスキーム、データ混合手法を網羅的に探索する。
主な課題は、ターゲットビデオと異なる相関関係を考慮し、モデルが全ての条件タイプを正確に活用できるように、異なるデータ構築と条件利用法を設計することであった。
実験の結果、UniMMVSRは既存の手法よりも優れており、より細部が良く、マルチモーダル条件への適合度が高いビデオを生成することがわかった。
また,UniMMVSRとベースモデルを組み合わせることで,既存の技術では実現不可能なマルチモーダルな4Kビデオ生成の実現の可能性も検証した。
関連論文リスト
- Team of One: Cracking Complex Video QA with Model Synergy [24.75732964829523]
本稿では,複雑な実世界のシナリオにおける推論深度と堅牢性を高める,オープンエンドなビデオ質問応答のための新しいフレームワークを提案する。
既存のビデオラージマルチモーダルモデル (Video-LMM) では、文脈的理解の制限、時間的モデリングの弱さ、曖昧さや構成的クエリへの一般化の低さがしばしば見られる。
論文 参考訳(メタデータ) (2025-07-18T11:12:44Z) - MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement [47.064467920954776]
我々は、任意の参照ビデオ生成のための統一的で効果的なフレームワークであるMAGREFを紹介する。
提案手法は,マスキング誘導と主観的ゆがみ機構を取り入れたものである。
包括的なベンチマークの実験は、MAGREFが既存の最先端のアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach [29.753974393652356]
フレーム対応ビデオ拡散モデル(FVDM)を提案する。
我々のアプローチでは、各フレームが独立したノイズスケジュールに従うことができ、モデルのキャパシティを高めて、きめ細かい時間依存性を捉えることができる。
実験により、FVDMは映像生成品質において最先端の手法よりも優れ、拡張タスクにも優れることが示された。
論文 参考訳(メタデータ) (2024-10-04T05:47:39Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Video Interpolation with Diffusion Models [54.06746595879689]
本稿では,ビデオ生成モデルであるVIDIMについて述べる。
VIDIMはカスケード拡散モデルを用いて、まず低解像度でターゲット映像を生成し、次に低解像度で生成されたビデオに条件付けされた高解像度映像を生成する。
論文 参考訳(メタデータ) (2024-04-01T15:59:32Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。