論文の概要: ModeNet: Mode Selection Network For Learned Video Coding
- arxiv url: http://arxiv.org/abs/2007.02532v2
- Date: Fri, 31 Jul 2020 12:47:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 02:26:27.569466
- Title: ModeNet: Mode Selection Network For Learned Video Coding
- Title(参考訳): ModeNet:学習ビデオ符号化のためのモード選択ネットワーク
- Authors: Th\'eo Ladune (IETR), Pierrick Philippe, Wassim Hamidouche (IETR), Lu
Zhang (IETR), Olivier D\'eforges (IETR)
- Abstract要約: Mod-eNetの関心は、Pフレームのコーディングタスクで研究され、予測値からフレームをコーディングする手法の設計に使用される。
学習画像圧縮2020(CLIC20)の課題に基づく評価において,ModeNetベースのシステムは魅力的なパフォーマンスを実現する
- 参考スコア(独自算出の注目度): 1.6619384554007748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a mode selection network (ModeNet) is proposed to enhance deep
learning-based video compression. Inspired by traditional video coding, ModeNet
purpose is to enable competition among several coding modes. The proposed
ModeNet learns and conveys a pixel-wise partitioning of the frame, used to
assign each pixel to the most suited coding mode. ModeNet is trained alongside
the different coding modes to minimize a rate-distortion cost. It is a flexible
component which can be generalized to other systems to allow competition
between different coding tools. Mod-eNet interest is studied on a P-frame
coding task, where it is used to design a method for coding a frame given its
prediction. ModeNet-based systems achieve compelling performance when evaluated
under the Challenge on Learned Image Compression 2020 (CLIC20) P-frame coding
track conditions.
- Abstract(参考訳): 本稿では,深層学習に基づくビデオ圧縮を強化するため,モード選択ネットワーク(ModeNet)を提案する。
従来のビデオコーディングにインスパイアされたModeNetの目的は、いくつかのコーディングモード間の競争を可能にすることである。
提案したModeNetは,各ピクセルを最も適した符号化モードに割り当てるために使用されるフレームの画素分割を学習し,伝達する。
modenetは異なるコーディングモードと共に訓練され、レート分散コストを最小限に抑える。
これは、異なるコーディングツール間の競合を可能にするために、他のシステムに一般化できる柔軟なコンポーネントである。
Mod-eNetの関心は、Pフレームのコーディングタスクで研究され、予測値からフレームをコーディングする手法の設計に使用される。
modenetベースのシステムは、学習画像圧縮2020(clic20)のpフレーム符号化トラック条件で評価することで、魅力的な性能を達成している。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - MMVC: Learned Multi-Mode Video Compression with Block-based Prediction
Mode Selection and Density-Adaptive Entropy Coding [21.147001610347832]
動作パターンに適応した特徴領域予測のための最適モードを選択するマルチモードビデオ圧縮フレームワークを提案する。
エントロピー符号化では、高密度かつスパースな後量子化残差ブロックを考慮し、任意のラン長符号化を適用して圧縮率を向上させる。
現状の映像圧縮方式や標準コーデックと比較すると,PSNRとMS-SSIMで測定したより優れた,あるいは競争的な結果が得られる。
論文 参考訳(メタデータ) (2023-04-05T07:37:48Z) - Graph Neural Networks for Channel Decoding [71.15576353630667]
低密度パリティチェック(LDPC)やBCH符号など、様々な符号化方式の競合復号性能を示す。
ニューラルネットワーク(NN)は、与えられたグラフ上で一般化されたメッセージパッシングアルゴリズムを学習する。
提案するデコーダを,従来のチャネル復号法および最近のディープラーニングに基づく結果と比較した。
論文 参考訳(メタデータ) (2022-07-29T15:29:18Z) - Deep Learning-Based Intra Mode Derivation for Versatile Video Coding [65.96100964146062]
本稿では,Deep Learning based intra Mode Derivation (DLIMD) と呼ばれるインテリジェントイントラモード導出法を提案する。
DLIMDのアーキテクチャは、異なる量子化パラメータ設定と、非平方要素を含む可変符号化ブロックに適応するように開発されている。
提案手法は,Versatile Video Coding (VVC) テストモデルを用いて,Y, U, Vコンポーネントの平均ビットレートを2.28%, 1.74%, 2.18%削減できる。
論文 参考訳(メタデータ) (2022-04-08T13:23:59Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - Enhanced Standard Compatible Image Compression Framework based on
Auxiliary Codec Networks [8.440333621142226]
Auxiliary Codec Networks (ACNs) に基づく新しい標準互換画像圧縮フレームワークを提案する。
ACNは、既存の画像劣化操作を模倣するように設計されており、コンパクトな表現ネットワークにより正確な勾配を提供する。
本稿では,JPEGおよび高効率ビデオ符号化(HEVC)標準に基づく提案フレームワークが,既存の画像圧縮アルゴリズムを標準互換性で大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-09-30T15:42:06Z) - Optical Flow and Mode Selection for Learning-based Video Coding [1.6619384554007748]
本稿では,MOFNetとCodecNetという2つの相補的オートエンコーダを用いたフレーム間符号化手法を提案する。
MoFNetは光学フローとピクセルワイドコーディングモードの選択を計算し、伝達することを目的としている。
符号化モード選択は、予測の直接コピーとCodecNet経由の送信の競合を可能にする。
論文 参考訳(メタデータ) (2020-08-06T11:21:22Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。