論文の概要: A Neural-network Enhanced Video Coding Framework beyond ECM
- arxiv url: http://arxiv.org/abs/2402.08397v2
- Date: Wed, 21 Feb 2024 05:20:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 18:48:49.475905
- Title: A Neural-network Enhanced Video Coding Framework beyond ECM
- Title(参考訳): ECMを超えたニューラルネットワーク強化ビデオ符号化フレームワーク
- Authors: Yanchen Zhao, Wenxuan He, Chuanmin Jia, Qizhe Wang, Junru Li, Yue Li,
Chaoyi Lin, Kai Zhang, Li Zhang, Siwei Ma
- Abstract要約: 拡張圧縮モデル(ECM)に基づくハイブリッドフレームワークの提案
コーディング技術をよく設計した最新のECMリファレンスソフトウェアを拡張しました。
ECM-10.0と比較すると,Y,U,Vの各成分に対して6.26,13.33,12.33BDレートの保存が可能となる。
- 参考スコア(独自算出の注目度): 36.32660726387989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a hybrid video compression framework is proposed that serves
as a demonstrative showcase of deep learning-based approaches extending beyond
the confines of traditional coding methodologies. The proposed hybrid framework
is founded upon the Enhanced Compression Model (ECM), which is a further
enhancement of the Versatile Video Coding (VVC) standard. We have augmented the
latest ECM reference software with well-designed coding techniques, including
block partitioning, deep learning-based loop filter, and the activation of
block importance mapping (BIM) which was integrated but previously inactive
within ECM, further enhancing coding performance. Compared with ECM-10.0, our
method achieves 6.26, 13.33, and 12.33 BD-rate savings for the Y, U, and V
components under random access (RA) configuration, respectively.
- Abstract(参考訳): 本稿では,従来のコーディング手法の限界を超えた深層学習に基づくアプローチの実証的紹介を行う,ハイブリッドビデオ圧縮フレームワークを提案する。
提案するハイブリッドフレームワークは,Versatile Video Coding (VVC) 標準のさらなる拡張である Enhanced Compression Model (ECM) に基づいて構築されている。
我々は、ブロック分割、深層学習に基づくループフィルタ、以前はECMに含まれていなかったブロック重要度マッピング(BIM)の活性化など、よく設計されたコーディング技術を用いて、最新のECM参照ソフトウェアを拡張し、さらに符号化性能を向上した。
ECM-10.0と比較すると,Y,U,Vの各コンポーネントをランダムアクセス(RA)構成で6.26,13.33,12.33BDレートで保存できる。
関連論文リスト
- Standardizing Generative Face Video Compression using Supplemental Enhancement Information [22.00903915523654]
本稿では,補助強調情報(SEI)を用いたGFVC(Generative Face Video Compression)アプローチを提案する。
執筆時点では,SEI メッセージを用いたGFVC アプローチが Versatile Supplemental Enhancement Information (VSEI) 規格の公式作業ドラフトに採用されている。
著者の知識を最大限活用するために、JVETが提案したSEIベースのGFVCアプローチは、生成ビデオ圧縮のための最初の標準化活動である。
論文 参考訳(メタデータ) (2024-10-19T13:37:24Z) - Bi-Directional Deep Contextual Video Compression [17.195099321371526]
本稿では,Bフレームに適した双方向深層映像圧縮方式をDCVC-Bと呼ぶ。
まず、効果的な動き差分符号化のための双方向の動き差分文脈伝搬法を提案する。
次に、双方向文脈圧縮モデルと対応する双方向時間エントロピーモデルを提案する。
第3に,階層的品質構造に基づくトレーニング戦略を提案し,画像の大規模なグループ間で効果的なビット割り当てを実現する。
論文 参考訳(メタデータ) (2024-08-16T08:45:25Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Deep Learning-Based Intra Mode Derivation for Versatile Video Coding [65.96100964146062]
本稿では,Deep Learning based intra Mode Derivation (DLIMD) と呼ばれるインテリジェントイントラモード導出法を提案する。
DLIMDのアーキテクチャは、異なる量子化パラメータ設定と、非平方要素を含む可変符号化ブロックに適応するように開発されている。
提案手法は,Versatile Video Coding (VVC) テストモデルを用いて,Y, U, Vコンポーネントの平均ビットレートを2.28%, 1.74%, 2.18%削減できる。
論文 参考訳(メタデータ) (2022-04-08T13:23:59Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - BVI-DVC: A Training Database for Deep Video Compression [13.730093064777078]
BVI-DVCはCNNベースのビデオ圧縮システムのトレーニング用に提供される。
270pから2160pまでの様々な空間分解能で800の配列を含む。
既存の10のネットワークアーキテクチャで、4つの異なるコーディングツールで評価されている。
論文 参考訳(メタデータ) (2020-03-30T15:26:16Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。