Fugu-MT 論文翻訳(概要): FDIM: A Feature-distance-based Generic Video Quality Metric for Versatile Codecs

論文の概要: FDIM: A Feature-distance-based Generic Video Quality Metric for Versatile Codecs

arxiv url: http://arxiv.org/abs/2604.24123v1
Date: Mon, 27 Apr 2026 07:19:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:07.787776
Title: FDIM: A Feature-distance-based Generic Video Quality Metric for Versatile Codecs
Title（参考訳）: FDIM:Versatile Codecのための特徴距離ベースジェネリックビデオ品質メトリクス
Authors: Jiayi Wang, Lichun Zhang, Xiaoqi Zhuang, Jiaqi Zhang, Lu Yu, Yin Zhao,
Abstract要約: FDIMは、伝統的なビデオコーデックとニューラルビデオコーデックの両方のための、機能距離ベースの汎用ビデオ品質メトリクスである。 16k以上のビデオシーケンスからなる大規模主観的品質評価データセット(DCV)を用いてFDIMを訓練した。
参考スコア（独自算出の注目度）: 16.429817532129388
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video technology is advancing toward Ultra High Definition (UHD) and High Dynamic Range (HDR), which intensifies the need for higher compression efficiency for these high-specification videos. Beyond advances in traditional codecs, neural video codecs (NVCs) have attracted significant research attention and have evolved rapidly over the past few years. The coding artifacts of NVCs often exhibit content-varying and generative characteristics, which differ from those of conventional codecs and are challenging for traditional video quality assessment (VQA) methods to capture. Therefore, VQA metrics are required to generalize across different codecs, content types, and dynamic ranges to better support video codec research and evaluation. In this paper, we propose FDIM, a feature-distance-based generic video quality metric for both traditional and neural video codecs across SDR and HDR formats. FDIM employs a hybrid architecture that integrates deep and hand-crafted features. The deep feature component learns multi-scale representations to capture distortions ranging from structural and textural fidelity degradation to high-level semantic deviations, while the hand-crafted feature component provides stable complementary cues to improve overall generalization. We trained FDIM on a large-scale subjective quality assessment dataset (DCVQA) consisting of over 16k video sequences encoded by traditional block-based hybrid video codecs and end-to-end perceptually optimized neural video codecs. Extensive experiments on ten SDR/HDR VQA datasets containing diverse, previously unseen codecs demonstrate that FDIM achieves strong generalization and high correlation with subjective assessment. The source code for FDIM and the DCVQA validation set will be released at https://github.com/MCL-ZJU/FDIM.
Abstract（参考訳）: ビデオ技術はUHD(Ultra High Definition)とHDR(High Dynamic Range)に向かって進んでいる。従来のコーデックの進歩以外にも、ニューラルビデオコーデック(NVC)は研究の注目を集め、ここ数年で急速に進化してきた。 NVCのコーディングアーティファクトは、従来のコーデックと異なり、従来のビデオ品質評価(VQA)手法ではキャプチャが困難である。したがって、VQAメトリクスは、ビデオコーデックの研究と評価をより支援するために、様々なコーデック、コンテンツタイプ、ダイナミックレンジにまたがって一般化する必要がある。本稿では,従来のビデオコーデックとニューラルビデオコーデックをSDRおよびHDRフォーマットで比較した,機能距離に基づく汎用ビデオ品質指標FDIMを提案する。 FDIMは、ディープと手作りの機能を統合したハイブリッドアーキテクチャを採用している。ディープ・フィーチャー・コンポーネントは、構造的・テクスチャ的忠実度劣化から高レベルのセマンティック偏差に至るまでの歪みを捉えるために、マルチスケールな表現を学習する一方、手作りのフィーチャー・コンポーネントは、全体的な一般化を改善するための安定した補完的手がかりを提供する。我々は、従来のブロックベースのハイブリッドビデオコーデックと、知覚に最適化されたエンドツーエンドのニューラルビデオコーデックによって符号化された16k以上のビデオシーケンスからなる大規模主観的品質評価データセット(DCVQA)を用いてFDIMを訓練した。多様な未確認コーデックを含む10個のSDR/HDR VQAデータセットの大規模な実験により、FDIMは主観評価と強い一般化と高い相関を達成できることが示された。 FDIMとDCVQA検証セットのソースコードはhttps://github.com/MCL-ZJU/FDIMで公開される。

論文の概要: FDIM: A Feature-distance-based Generic Video Quality Metric for Versatile Codecs

関連論文リスト