論文の概要: Degradation-Aware Hierarchical Termination for Blind Quality Enhancement of Compressed Video
- arxiv url: http://arxiv.org/abs/2511.16137v1
- Date: Thu, 20 Nov 2025 08:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.526721
- Title: Degradation-Aware Hierarchical Termination for Blind Quality Enhancement of Compressed Video
- Title(参考訳): 圧縮ビデオのブラインド品質向上のための劣化を考慮した階層的終了
- Authors: Li Yu, Yingbo Zhao, Shiyu Wu, Siyue Yu, Moncef Gabbouj, Qingshan Liu,
- Abstract要約: 圧縮ビデオ(QECV)研究における既存の品質向上は、主に既知の量子化パラメータ(QP)に依存している。
本稿では,映像コンテンツから高次元・マルチスケールの劣化表現を分離・抽出し,人工物除去を誘導する,事前学習型劣化表現学習モジュールを提案する。
実験の結果,提案手法は性能を著しく向上し,QP=22の最先端ブラインド法に比べてPSNRが110%向上した(0.31dBから0.65dB)。
- 参考スコア(独自算出の注目度): 29.597317515384233
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing studies on Quality Enhancement for Compressed Video (QECV) predominantly rely on known Quantization Parameters (QPs), employing distinct enhancement models per QP setting, termed non-blind methods. However, in real-world scenarios involving transcoding or transmission, QPs may be partially or entirely unknown, limiting the applicability of such approaches and motivating the development of blind QECV techniques. Current blind methods generate degradation vectors via classification models with cross-entropy loss, using them as channel attention to guide artifact removal. However, these vectors capture only global degradation information and lack spatial details, hindering adaptation to varying artifact patterns at different spatial positions. To address these limitations, we propose a pretrained Degradation Representation Learning (DRL) module that decouples and extracts high-dimensional, multiscale degradation representations from video content to guide the artifact removal. Additionally, both blind and non-blind methods typically employ uniform architectures across QPs, hence, overlooking the varying computational demands inherent to different compression levels. We thus introduce a hierarchical termination mechanism that dynamically adjusts the number of artifact reduction stages based on the compression level. Experimental results demonstrate that the proposed approach significantly enhances performance, achieving a PSNR improvement of 110% (from 0.31 dB to 0.65 dB) over a competing state-of-the-art blind method at QP = 22. Furthermore, the proposed hierarchical termination mechanism reduces the average inference time at QP = 22 by half compared to QP = 42.
- Abstract(参考訳): 圧縮ビデオの品質向上に関する研究(QECV)は、既知の量子化パラメータ(QP)に大きく依存しており、非盲検法と呼ばれるQP設定毎に異なる拡張モデルを用いている。
しかし、トランスコーディングやトランスフォーメーションを含む現実のシナリオでは、QPは部分的にも完全にも未知であり、そのようなアプローチの適用性を制限し、盲目のQECV技術の発展を動機付けている。
現在のブラインド法では, クロスエントロピー損失のある分類モデルを用いて劣化ベクトルを生成し, チャネルアテンションとして利用してアーティファクトの除去を誘導している。
しかし、これらのベクトルは、グローバルな劣化情報のみをキャプチャし、空間的詳細を欠き、異なる空間的位置における様々なアーティファクトパターンへの適応を妨げる。
これらの制約に対処するために,ビデオコンテンツから高次元・マルチスケールの劣化表現を分離して抽出し,人工物除去を導く,事前学習型劣化表現学習(DRL)モジュールを提案する。
加えて、ブラインド法と非ブラインド法はいずれもQP全体にわたって一様アーキテクチャを採用しているため、異なる圧縮レベルに固有の様々な計算要求を見落としている。
そこで本稿では,圧縮レベルに基づいて動的にアーティファクト削減ステージ数を調整する階層的終了機構を導入する。
実験の結果,提案手法は性能を著しく向上し,QP=22の最先端ブラインド法に比べてPSNRが110%向上した(0.31dBから0.65dB)。
さらに、提案した階層的終了機構は、QP = 42と比較して、QP = 22の平均推論時間を半減する。
関連論文リスト
- SODiff: Semantic-Oriented Diffusion Model for JPEG Compression Artifacts Removal [50.90827365790281]
SODiffはJPEGアーティファクト削除のためのセマンティック指向のワンステップ拡散モデルである。
我々の中核的な考え方は、効果的な復元ヒンジは、事前訓練された拡散モデルに対する意味指向的なガイダンスを提供することである。
SAIPEは、低品質(LQ)画像からリッチな特徴を抽出し、テキストエンコーダとセマンティックに整合した埋め込み空間に投影する。
論文 参考訳(メタデータ) (2025-08-10T13:48:07Z) - Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model [55.2480439325792]
本稿では,認知品質に最適化されたハイブリッド圧縮方式を提案し,CDCモデルのアプローチをデコーダネットワークで拡張する。
CDCと比較した場合,LPIPSとFIDの知覚スコアを比較検討しながら,最大2dBPSNRの忠実度向上を実現した。
論文 参考訳(メタデータ) (2025-05-19T14:13:14Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Pathology Image Compression with Pre-trained Autoencoders [52.208181380986524]
デジタル病理学における全スライド画像は、記憶、伝達、計算効率の面で大きな課題をもたらす。
JPEGのような標準的な圧縮手法はファイルサイズを小さくするが、下流のタスクに不可欠な微細な表現型の詳細を保存できない。
本研究では,遅延拡散モデル用に設計されたオートエンコーダ(AE)を,病理画像の効率的な学習圧縮フレームワークとして再利用する。
論文 参考訳(メタデータ) (2025-03-14T17:01:17Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Boosting Visual Recognition in Real-world Degradations via Unsupervised Feature Enhancement Module with Deep Channel Prior [22.323789227447755]
霧、低照度、動きのぼかしは画像の品質を低下させ、自動運転の安全性を脅かす。
本研究は、劣化した視覚認識のための新しいDeep Channel Prior (DCP)を提案する。
これに基づいて、教師なし特徴補正を実現するために、新しいプラグアンドプレイunsupervised Feature Enhancement Module (UFEM)を提案する。
論文 参考訳(メタデータ) (2024-04-02T07:16:56Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - EDA-DM: Enhanced Distribution Alignment for Post-Training Quantization of Diffusion Models [8.742501879586309]
量子化はモデルの複雑性を効果的に低減し、後学習量子化(PTQ)は拡散モデルの圧縮と加速に非常に有望である。
既存のPTQ法は, キャリブレーションサンプルレベルと再構成出力レベルの両方の分布ミスマッチ問題に悩まされている。
本稿では,上記の問題に効率的に対処する標準化されたPTQ手法であるEDA-DMを提案する。
論文 参考訳(メタデータ) (2024-01-09T14:42:49Z) - You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment [45.62136459502005]
本稿では,完全な参照 (FR) と非参照 (NR) IQA を行うネットワークを提案する。
まず、入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。
エンコーダの浅い層と深い層との間の特徴相関を調べるために, セマンティック・ディストーション・アウェア (SDA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - Lightweight Attribute Localizing Models for Pedestrian Attribute Recognition [13.480231032159834]
本稿では,圧縮モデルの勾配方向が元のモデルと密接に一致していることを保証するため,低ランク層の最適ランクを決定する新しい手法を提案する。
これは、圧縮されたモデルはフルモデルの更新方向を効果的に保存し、歩行者属性認識タスクのより効率的な圧縮を可能にすることを意味する。
論文 参考訳(メタデータ) (2023-06-16T13:07:13Z) - Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral
Compressive Imaging [142.11622043078867]
圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各イテレーションを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。
HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立した。
論文 参考訳(メタデータ) (2022-05-20T11:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。