論文の概要: Adaptive High-Frequency Preprocessing for Video Coding
- arxiv url: http://arxiv.org/abs/2508.08849v1
- Date: Tue, 12 Aug 2025 11:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.401384
- Title: Adaptive High-Frequency Preprocessing for Video Coding
- Title(参考訳): ビデオ符号化のための適応型高周波前処理
- Authors: Yingxue Pang, Shijie Zhao, Junlin Li, Li Zhang,
- Abstract要約: ビデオの明瞭さとリアリズムを維持するためには高周波コンポーネントが不可欠だが、符号化にも大きく影響し、帯域幅とストレージコストが増大する。
本稿では,ビデオ符号化における主観的品質と保存性を高めるために,適応型高周波前処理のためのエンドツーエンド学習ベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.492217153689428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-frequency components are crucial for maintaining video clarity and realism, but they also significantly impact coding bitrate, resulting in increased bandwidth and storage costs. This paper presents an end-to-end learning-based framework for adaptive high-frequency preprocessing to enhance subjective quality and save bitrate in video coding. The framework employs the Frequency-attentive Feature pyramid Prediction Network (FFPN) to predict the optimal high-frequency preprocessing strategy, guiding subsequent filtering operators to achieve the optimal tradeoff between bitrate and quality after compression. For training FFPN, we pseudo-label each training video with the optimal strategy, determined by comparing the rate-distortion (RD) performance across different preprocessing types and strengths. Distortion is measured using the latest quality assessment metric. Comprehensive evaluations on multiple datasets demonstrate the visually appealing enhancement capabilities and bitrate savings achieved by our framework.
- Abstract(参考訳): ビデオの明瞭さとリアリズムを維持するためには高周波コンポーネントが不可欠だが、符号化ビットレートに大きな影響を与え、帯域幅とストレージコストが増大する。
本稿では、主観的品質を高め、ビデオ符号化におけるビットレートを節約するために、適応型高周波前処理のためのエンドツーエンド学習ベースのフレームワークを提案する。
このフレームワークは、周波数減衰型特徴ピラミッド予測ネットワーク(FFPN)を用いて、最適な高周波前処理戦略を予測し、後続のフィルタリング演算子を誘導し、圧縮後のビットレートと品質の最適なトレードオフを実現する。
FFPNをトレーニングするために、各トレーニングビデオに最適な戦略を付加し、異なる前処理タイプと強みのレート歪み(RD)性能を比較して決定する。
歪みは、最新の品質評価基準を用いて測定される。
複数のデータセットに対する総合的な評価は、我々のフレームワークによって達成された視覚的に魅力的な拡張機能とビットレートの節約を示す。
関連論文リスト
- CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - Variable Bitrate Residual Vector Quantization for Audio Coding [29.368893236587343]
最近のニューラルオーディオ圧縮モデルでは、残留ベクトル量子化(RVQ)が徐々に採用されている
これらのモデルはフレーム毎に一定数のコードブックを使用し、レート・歪曲トレードオフの点では最適である。
本稿では,音声コーデックの可変RVQ (VRVQ) を提案する。
論文 参考訳(メタデータ) (2024-10-08T13:18:24Z) - Prediction and Reference Quality Adaptation for Learned Video Compression [54.58691829087094]
時間予測はビデオ圧縮において最も重要な技術の一つである。
従来のビデオコーデックは、予測品質と基準品質に応じて最適な符号化モードを適応的に決定する。
本稿では,信頼性に基づく予測品質適応(PQA)モジュールと基準品質適応(RQA)モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-20T09:03:26Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Optimal Transcoding Resolution Prediction for Efficient Per-Title
Bitrate Ladder Estimation [9.332104035349932]
プリエンコーディングなしでコンテンツ最適化機能やはしごを効率的に決定できることを実証する。
Bjontegaard Delta rate loss of 1.21%。
論文 参考訳(メタデータ) (2024-01-09T08:01:47Z) - End-to-End Rate-Distortion Optimized Learned Hierarchical Bi-Directional
Video Compression [10.885590093103344]
学習VCは、非線形変換、運動、エントロピーモデルのエンドツーエンドの速度歪み(R-D)最適化トレーニングを同時に行うことができる。
本稿では,階層型モーションサンプリングとエンドツーエンド最適化の利点を組み合わせた,学習型階層型双方向ビデオ(LHBDC)を提案する。
論文 参考訳(メタデータ) (2021-12-17T14:30:22Z) - Capturing Video Frame Rate Variations via Entropic Differencing [63.749184706461826]
一般化ガウス分布モデルに基づく新しい統計エントロピー差分法を提案する。
提案手法は,最近提案されたLIVE-YT-HFRデータベースにおいて,主観的スコアと非常によく相関する。
論文 参考訳(メタデータ) (2020-06-19T22:16:52Z) - End-to-End Facial Deep Learning Feature Compression with Teacher-Student
Enhancement [57.18801093608717]
本稿では,ディープニューラルネットワークの表現と学習能力を活用することで,エンドツーエンドの特徴圧縮手法を提案する。
特に、抽出した特徴量を、レート歪みコストを最適化することにより、エンドツーエンドでコンパクトに符号化する。
提案モデルの有効性を顔の特徴で検証し, 圧縮性能を高いレート精度で評価した。
論文 参考訳(メタデータ) (2020-02-10T10:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。