論文の概要: CreativeVR: Diffusion-Prior-Guided Approach for Structure and Motion Restoration in Generative and Real Videos
- arxiv url: http://arxiv.org/abs/2512.12060v1
- Date: Fri, 12 Dec 2025 22:03:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.08788
- Title: CreativeVR: Diffusion-Prior-Guided Approach for Structure and Motion Restoration in Generative and Real Videos
- Title(参考訳): CreativeVR: ジェネレーティブビデオとリアルビデオにおける構造と動きの復元のための拡散パラメータ誘導アプローチ
- Authors: Tejas Panambur, Ishan Rajendrakumar Dave, Chongjian Ge, Ersin Yumer, Xue Bai,
- Abstract要約: CreativeVRはAIGC(AIGC)と、厳格な構造と時間的アーティファクトを備えた実ビデオのための拡散優先のビデオ復元フレームワークである。
我々のDeep-Adapter-based methodは、モデルが入力にどれだけ強く従うかを制御する単一の精度ノブを公開する。
CreativeVRは、厳しいアーティファクトを持つビデオの最先端の結果を達成し、標準的なビデオ復元ベンチマークで競争的に実行します。
- 参考スコア(独自算出の注目度): 17.81372151946937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern text-to-video (T2V) diffusion models can synthesize visually compelling clips, yet they remain brittle at fine-scale structure: even state-of-the-art generators often produce distorted faces and hands, warped backgrounds, and temporally inconsistent motion. Such severe structural artifacts also appear in very low-quality real-world videos. Classical video restoration and super-resolution (VR/VSR) methods, in contrast, are tuned for synthetic degradations such as blur and downsampling and tend to stabilize these artifacts rather than repair them, while diffusion-prior restorers are usually trained on photometric noise and offer little control over the trade-off between perceptual quality and fidelity. We introduce CreativeVR, a diffusion-prior-guided video restoration framework for AI-generated (AIGC) and real videos with severe structural and temporal artifacts. Our deep-adapter-based method exposes a single precision knob that controls how strongly the model follows the input, smoothly trading off between precise restoration on standard degradations and stronger structure- and motion-corrective behavior on challenging content. Our key novelty is a temporally coherent degradation module used during training, which applies carefully designed transformations that produce realistic structural failures. To evaluate AIGC-artifact restoration, we propose the AIGC54 benchmark with FIQA, semantic and perceptual metrics, and multi-aspect scoring. CreativeVR achieves state-of-the-art results on videos with severe artifacts and performs competitively on standard video restoration benchmarks, while running at practical throughput (about 13 FPS at 720p on a single 80-GB A100). Project page: https://daveishan.github.io/creativevr-webpage/.
- Abstract(参考訳): 現代のテキスト・トゥ・ビデオ(T2V)拡散モデルは視覚的に魅力的なクリップを合成することができるが、細かな構造では不安定であり、最先端のジェネレータでさえしばしば歪んだ顔や手、歪んだ背景、時間的に一貫性のない動きを生成する。
このような厳しい構造的アーティファクトは、非常に低品質の現実世界のビデオにも現れる。
対照的に、古典的なビデオ修復と超解像法(VR/VSR)は、ぼかしやダウンサンプリングのような合成劣化を調整し、これらを修復するよりも安定化させる傾向がある。
本稿では,AIGC(AIGC)と重度構造と時間的アーティファクトを備えた実ビデオのための拡散誘導型ビデオ復元フレームワークCreativeVRを紹介する。
我々のディープアダプターベースの手法は、モデルが入力にどれだけ強く従うかを制御する単一の精度ノブを公開する。
私たちの重要なノベルティは、トレーニング中に使用される時間的コヒーレントな劣化モジュールです。
そこで我々は,AIGC54ベンチマークをFIQA,意味的および知覚的指標,マルチアスペクトスコアを用いて評価する。
CreativeVRは、厳しいアーティファクトを持つビデオの最先端の結果を達成し、実際のスループット(80GB A100で720pで約13FPS)で、標準的なビデオ復元ベンチマークで競争力を発揮する。
プロジェクトページ: https://daveishan.github.io/creativevr-webpage/.com
関連論文リスト
- All-in-One Video Restoration under Smoothly Evolving Unknown Weather Degradations [102.94052335735326]
All-in-one画像復元は、単一のモデルを用いて、さまざまな未知の劣化からクリーンなイメージを復元することを目的としている。
既存のアプローチは主に、現実世界の劣化過程に自然に存在する時間的連続性を見越して、フレームワイドの劣化変動に焦点を当てている。
Smoothly Evolving Unknown Degradations (SEUD) のシナリオでは、アクティブな劣化セットと劣化強度の両方が時間とともに連続的に変化する。
論文 参考訳(メタデータ) (2026-01-02T02:20:57Z) - STCDiT: Spatio-Temporally Consistent Diffusion Transformer for High-Quality Video Super-Resolution [60.06664986365803]
我々は,事前学習したビデオ拡散モデルに基づいて構築されたビデオ超解像フレームワークSTCDiTを提案する。
複雑なカメラの動きであっても、構造的に忠実で時間的に安定した動画を劣化した入力から復元することを目的としている。
論文 参考訳(メタデータ) (2025-11-24T05:37:23Z) - MoA-VR: A Mixture-of-Agents System Towards All-in-One Video Restoration [62.929029990341796]
実世界のビデオは、ノイズ、圧縮アーティファクト、低照度歪みなどの複雑な劣化に悩まされることが多い。
3つの協調エージェントによる人間のプロの推論・処理手順を模倣したMoA-VRを提案する。
具体的には、大規模かつ高解像度なビデオ劣化認識ベンチマークを構築し、視覚言語モデル(VLM)による劣化識別子を構築する。
論文 参考訳(メタデータ) (2025-10-09T17:42:51Z) - LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration [3.2944592608677614]
本稿では,VCMで符号化された先行画像を用いた高精細ビデオ再生のための,最初のゼロショット・プラグ・アンド・プレイ逆解器であるLVTINOを提案する。
我々の条件付け機構は、自動微分の必要性を回避し、少数のニューラルファンクション評価で最先端のビデオ再構成品質を達成する。
論文 参考訳(メタデータ) (2025-10-01T18:10:08Z) - BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。
実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-06-25T03:30:04Z) - Implicit Neural Representation for Video Restoration [4.960738913876514]
Inlicit Neural Representations (INR)に基づく新しいビデオ復元手法であるVR-INRを紹介する。
VR-INRは、テスト時に任意の、目に見えない超解像スケールに効果的に一般化する。
トレーニング中、目に見えないスケールで高品質な再構築とノイズを継続的に維持する。
論文 参考訳(メタデータ) (2025-06-05T18:09:59Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration [73.70209718408641]
SeedVRは、任意の長さと解像度で現実世界のビデオ再生を処理するために設計された拡散トランスフォーマーである。
合成ベンチマークと実世界のベンチマーク、AI生成ビデオで高い競争力を発揮する。
論文 参考訳(メタデータ) (2025-01-02T16:19:48Z) - FLAIR: A Conditional Diffusion Framework with Applications to Face Video
Restoration [14.17192434286707]
顔画像復元のためのFLAIRと呼ばれる新しい条件拡散フレームワークを提案する。
FLAIRは、計算的に効率的な方法でフレーム間の時間的一貫性を保証する。
我々の実験は,2つの高品質な顔ビデオデータセット上での映像超解像,デブロアリング,JPEG復元,時空フレームにおいて,現在最先端(SOTA)よりもFLAIRの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-26T22:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。