論文の概要: FDIM: A Feature-distance-based Generic Video Quality Metric for Versatile Codecs
- arxiv url: http://arxiv.org/abs/2604.24123v1
- Date: Mon, 27 Apr 2026 07:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.787776
- Title: FDIM: A Feature-distance-based Generic Video Quality Metric for Versatile Codecs
- Title(参考訳): FDIM:Versatile Codecのための特徴距離ベースジェネリックビデオ品質メトリクス
- Authors: Jiayi Wang, Lichun Zhang, Xiaoqi Zhuang, Jiaqi Zhang, Lu Yu, Yin Zhao,
- Abstract要約: FDIMは、伝統的なビデオコーデックとニューラルビデオコーデックの両方のための、機能距離ベースの汎用ビデオ品質メトリクスである。
16k以上のビデオシーケンスからなる大規模主観的品質評価データセット(DCV)を用いてFDIMを訓練した。
- 参考スコア(独自算出の注目度): 16.429817532129388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video technology is advancing toward Ultra High Definition (UHD) and High Dynamic Range (HDR), which intensifies the need for higher compression efficiency for these high-specification videos. Beyond advances in traditional codecs, neural video codecs (NVCs) have attracted significant research attention and have evolved rapidly over the past few years. The coding artifacts of NVCs often exhibit content-varying and generative characteristics, which differ from those of conventional codecs and are challenging for traditional video quality assessment (VQA) methods to capture. Therefore, VQA metrics are required to generalize across different codecs, content types, and dynamic ranges to better support video codec research and evaluation. In this paper, we propose FDIM, a feature-distance-based generic video quality metric for both traditional and neural video codecs across SDR and HDR formats. FDIM employs a hybrid architecture that integrates deep and hand-crafted features. The deep feature component learns multi-scale representations to capture distortions ranging from structural and textural fidelity degradation to high-level semantic deviations, while the hand-crafted feature component provides stable complementary cues to improve overall generalization. We trained FDIM on a large-scale subjective quality assessment dataset (DCVQA) consisting of over 16k video sequences encoded by traditional block-based hybrid video codecs and end-to-end perceptually optimized neural video codecs. Extensive experiments on ten SDR/HDR VQA datasets containing diverse, previously unseen codecs demonstrate that FDIM achieves strong generalization and high correlation with subjective assessment. The source code for FDIM and the DCVQA validation set will be released at https://github.com/MCL-ZJU/FDIM.
- Abstract(参考訳): ビデオ技術はUHD(Ultra High Definition)とHDR(High Dynamic Range)に向かって進んでいる。
従来のコーデックの進歩以外にも、ニューラルビデオコーデック(NVC)は研究の注目を集め、ここ数年で急速に進化してきた。
NVCのコーディングアーティファクトは、従来のコーデックと異なり、従来のビデオ品質評価(VQA)手法ではキャプチャが困難である。
したがって、VQAメトリクスは、ビデオコーデックの研究と評価をより支援するために、様々なコーデック、コンテンツタイプ、ダイナミックレンジにまたがって一般化する必要がある。
本稿では,従来のビデオコーデックとニューラルビデオコーデックをSDRおよびHDRフォーマットで比較した,機能距離に基づく汎用ビデオ品質指標FDIMを提案する。
FDIMは、ディープと手作りの機能を統合したハイブリッドアーキテクチャを採用している。
ディープ・フィーチャー・コンポーネントは、構造的・テクスチャ的忠実度劣化から高レベルのセマンティック偏差に至るまでの歪みを捉えるために、マルチスケールな表現を学習する一方、手作りのフィーチャー・コンポーネントは、全体的な一般化を改善するための安定した補完的手がかりを提供する。
我々は、従来のブロックベースのハイブリッドビデオコーデックと、知覚に最適化されたエンドツーエンドのニューラルビデオコーデックによって符号化された16k以上のビデオシーケンスからなる大規模主観的品質評価データセット(DCVQA)を用いてFDIMを訓練した。
多様な未確認コーデックを含む10個のSDR/HDR VQAデータセットの大規模な実験により、FDIMは主観評価と強い一般化と高い相関を達成できることが示された。
FDIMとDCVQA検証セットのソースコードはhttps://github.com/MCL-ZJU/FDIMで公開される。
関連論文リスト
- CompressedVQA-HDR: Generalized Full-reference and No-reference Quality Assessment Models for Compressed High Dynamic Range Videos [46.255654141741815]
本稿では,HDRビデオ品質評価の課題に対処する有効なVQAフレームワークであるCompressedVQA-SDRを紹介する。
我々は,提案した完全参照(FR)モデルと非参照(NR)VQAモデルのバックボーンネットワークとして,Swin TransformerとSigLip 2を採用する。
我々のモデルは既存のFRやNR VQAモデルと比較して最先端の性能を実現している。
論文 参考訳(メタデータ) (2025-07-16T04:33:06Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Prediction and Reference Quality Adaptation for Learned Video Compression [54.58691829087094]
時間予測はビデオ圧縮において最も重要な技術の一つである。
従来のビデオコーデックは、予測品質と基準品質に応じて最適な符号化モードを適応的に決定する。
本稿では,信頼性に基づく予測品質適応(PQA)モジュールと基準品質適応(RQA)モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-20T09:03:26Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Variable Rate Video Compression using a Hybrid Recurrent Convolutional
Learning Framework [1.9290392443571382]
本稿では,予測自動符号化の概念に基づくハイブリッドビデオ圧縮フレームワークであるPredEncoderを提案する。
可変レートブロック符号化方式が論文で提案され,ビットレート比が著しく向上した。
論文 参考訳(メタデータ) (2020-04-08T20:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。