論文の概要: Coding-Prior Guided Diffusion Network for Video Deblurring
- arxiv url: http://arxiv.org/abs/2504.12222v1
- Date: Wed, 16 Apr 2025 16:14:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:19.671991
- Title: Coding-Prior Guided Diffusion Network for Video Deblurring
- Title(参考訳): ビデオデブロアリングのための符号化パラメータ誘導拡散ネットワーク
- Authors: Yike Liu, Jianhui Zhang, Haipeng Li, Shuaicheng Liu, Bing Zeng,
- Abstract要約: 本稿では,コーディング先行と生成拡散先行の両方を有効活用して,高品質なデブロアリングを実現する新しいフレームワークを提案する。
実験では, IQA測定値の最大30%の改善により, 最先端の知覚品質が得られることを示した。
- 参考スコア(独自算出の注目度): 47.77918791133459
- License:
- Abstract: While recent video deblurring methods have advanced significantly, they often overlook two valuable prior information: (1) motion vectors (MVs) and coding residuals (CRs) from video codecs, which provide efficient inter-frame alignment cues, and (2) the rich real-world knowledge embedded in pre-trained diffusion generative models. We present CPGDNet, a novel two-stage framework that effectively leverages both coding priors and generative diffusion priors for high-quality deblurring. First, our coding-prior feature propagation (CPFP) module utilizes MVs for efficient frame alignment and CRs to generate attention masks, addressing motion inaccuracies and texture variations. Second, a coding-prior controlled generation (CPC) module network integrates coding priors into a pretrained diffusion model, guiding it to enhance critical regions and synthesize realistic details. Experiments demonstrate our method achieves state-of-the-art perceptual quality with up to 30% improvement in IQA metrics. Both the code and the codingprior-augmented dataset will be open-sourced.
- Abstract(参考訳): 最近のビデオデブロアリング手法は著しく進歩しているが,(1) 動画コーデックから動きベクトル(MV)と符号化残差(CR)の2つの貴重な事前情報を見落とし,(2) 事前学習された拡散生成モデルに埋め込まれた豊かな実世界の知識を提供する。
CPGDNetは、符号化先行と生成拡散先行の両方を効果的に活用し、高品質なデブロアリングを実現する新しい2段階フレームワークである。
まず,符号化優先特徴伝搬(CPFP)モジュールは,MVを用いてフレームアライメントとCRを効率よく行い,アテンションマスクを生成し,動きの不正確さやテクスチャの変化に対処する。
第2に、符号化優先制御生成(CPC)モジュールネットワークは、事前訓練された拡散モデルに統合し、臨界領域の強化と現実的な詳細の合成を誘導する。
実験では, IQA測定値の最大30%の改善により, 最先端の知覚品質が得られることを示した。
コードとコード優先のデータセットの両方がオープンソース化される。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Exploring Distortion Prior with Latent Diffusion Models for Remote Sensing Image Compression [9.742764207747697]
遅延拡散モデルに基づくリモートセンシング画像圧縮法(LDM-RSIC)を提案する。
第1段階では、自己エンコーダは、高品質な入力画像から予め学習する。
第2段階では、既存の学習ベース画像圧縮アルゴリズムの復号化画像に条件付LDMにより前者が生成される。
論文 参考訳(メタデータ) (2024-06-06T11:13:44Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - CPGA: Coding Priors-Guided Aggregation Network for Compressed Video Quality Enhancement [11.862146973848558]
符号化先行情報から時間的・空間的情報を利用するために,CPGA(Coding Priors-Guided Aggregation)ネットワークを開発した。
圧縮ビデオ品質向上(VQE)の研究を容易にするため,ビデオ符号化優先データセットを構築した。
論文 参考訳(メタデータ) (2024-03-15T14:53:31Z) - Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive
Feature Learning in Speech Enhancement [0.2538209532048866]
本稿では、時間周波数(T-F)ドメイン音声強調ネットワーク(DPCFCS-Net)を提案する。
改良された高密度接続ブロック、デュアルパスモジュール、畳み込み拡張トランス(コンフォーマー)、チャンネルアテンション、空間アテンションが組み込まれている。
従来のモデルと比較して,提案モデルはより効率的なエンコーダデコーダを備え,包括的特徴を学習することができる。
論文 参考訳(メタデータ) (2023-06-09T12:52:01Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。