論文の概要: Optical Flow and Mode Selection for Learning-based Video Coding
- arxiv url: http://arxiv.org/abs/2008.02580v1
- Date: Thu, 6 Aug 2020 11:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 06:35:53.654208
- Title: Optical Flow and Mode Selection for Learning-based Video Coding
- Title(参考訳): 学習映像符号化のための光学フローとモード選択
- Authors: Th\'eo Ladune (IETR), Pierrick Philippe, Wassim Hamidouche (IETR), Lu
Zhang (IETR), Olivier D\'eforges (IETR)
- Abstract要約: 本稿では,MOFNetとCodecNetという2つの相補的オートエンコーダを用いたフレーム間符号化手法を提案する。
MoFNetは光学フローとピクセルワイドコーディングモードの選択を計算し、伝達することを目的としている。
符号化モード選択は、予測の直接コピーとCodecNet経由の送信の競合を可能にする。
- 参考スコア(独自算出の注目度): 1.6619384554007748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a new method for inter-frame coding based on two
complementary autoencoders: MOFNet and CodecNet. MOFNet aims at computing and
conveying the Optical Flow and a pixel-wise coding Mode selection. The optical
flow is used to perform a prediction of the frame to code. The coding mode
selection enables competition between direct copy of the prediction or
transmission through CodecNet. The proposed coding scheme is assessed under the
Challenge on Learned Image Compression 2020 (CLIC20) P-frame coding conditions,
where it is shown to perform on par with the state-of-the-art video codec
ITU/MPEG HEVC. Moreover, the possibility of copying the prediction enables to
learn the optical flow in an end-to-end fashion i.e. without relying on
pre-training and/or a dedicated loss term.
- Abstract(参考訳): 本稿では,mofnetとcodecnetという2つの補完的オートエンコーダに基づくフレーム間符号化手法を提案する。
MOFNetは光学フローと画素単位の符号化モードの選択の計算と伝達を目的としている。
光の流れは、符号化するフレームの予測を行うために使用される。
符号化モード選択は、予測の直接コピーとCodecNetによる送信の競合を可能にする。
提案手法は, 学習画像圧縮2020(clic20)のpフレーム符号化条件に基づいて評価され, 最先端のビデオコーデックitu/mpeg hevcと同等の性能を示す。
さらに、予測をコピーする可能性により、事前学習や専用損失項に頼ることなく、エンドツーエンドで光の流れを学習することができる。
関連論文リスト
- Offline and Online Optical Flow Enhancement for Deep Video Compression [14.445058335559994]
モーション情報は、既存のディープビデオ圧縮ネットワークのほとんどで光学フローとして表現されている。
我々は現在最先端のディープビデオ圧縮方式であるDCVCの実験を行っている。
論文 参考訳(メタデータ) (2023-07-11T07:52:06Z) - CANF-VC: Conditional Augmented Normalizing Flows for Video Compression [81.41594331948843]
CANF-VCは、エンドツーエンドの学習ベースのビデオ圧縮システムである。
条件付き拡張正規化フロー(ANF)に基づく。
論文 参考訳(メタデータ) (2022-07-12T04:53:24Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - Deep Learning-Based Intra Mode Derivation for Versatile Video Coding [65.96100964146062]
本稿では,Deep Learning based intra Mode Derivation (DLIMD) と呼ばれるインテリジェントイントラモード導出法を提案する。
DLIMDのアーキテクチャは、異なる量子化パラメータ設定と、非平方要素を含む可変符号化ブロックに適応するように開発されている。
提案手法は,Versatile Video Coding (VVC) テストモデルを用いて,Y, U, Vコンポーネントの平均ビットレートを2.28%, 1.74%, 2.18%削減できる。
論文 参考訳(メタデータ) (2022-04-08T13:23:59Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - ModeNet: Mode Selection Network For Learned Video Coding [1.6619384554007748]
Mod-eNetの関心は、Pフレームのコーディングタスクで研究され、予測値からフレームをコーディングする手法の設計に使用される。
学習画像圧縮2020(CLIC20)の課題に基づく評価において,ModeNetベースのシステムは魅力的なパフォーマンスを実現する
論文 参考訳(メタデータ) (2020-07-06T05:37:20Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。