論文の概要: NN-VVC: Versatile Video Coding boosted by self-supervisedly learned
image coding for machines
- arxiv url: http://arxiv.org/abs/2401.10761v1
- Date: Fri, 19 Jan 2024 15:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 15:19:46.869703
- Title: NN-VVC: Versatile Video Coding boosted by self-supervisedly learned
image coding for machines
- Title(参考訳): NN-VVC: マシンの自己教師付き画像符号化によりビデオ符号化が強化
- Authors: Jukka I. Ahonen, Nam Le, Honglei Zhang, Antti Hallapuro, Francesco
Cricri, Hamed Rezazadegan Tavakoli, Miska M. Hannuksela, Esa Rahtu
- Abstract要約: 本稿では, NN-VVC という, E2E 学習画像と CVC の利点を組み合わせて, 画像符号化と映像符号化の両面において高い性能を実現するマシン用ハイブリッドを提案する。
実験の結果,提案システムは画像データとビデオデータのVVCよりも最大で-43.20%,-26.8%のBjontegaard Deltaレート低下を達成した。
- 参考スコア(独自算出の注目度): 19.183883119933558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent progress in artificial intelligence has led to an ever-increasing
usage of images and videos by machine analysis algorithms, mainly neural
networks. Nonetheless, compression, storage and transmission of media have
traditionally been designed considering human beings as the viewers of the
content. Recent research on image and video coding for machine analysis has
progressed mainly in two almost orthogonal directions. The first is represented
by end-to-end (E2E) learned codecs which, while offering high performance on
image coding, are not yet on par with state-of-the-art conventional video
codecs and lack interoperability. The second direction considers using the
Versatile Video Coding (VVC) standard or any other conventional video codec
(CVC) together with pre- and post-processing operations targeting machine
analysis. While the CVC-based methods benefit from interoperability and broad
hardware and software support, the machine task performance is often lower than
the desired level, particularly in low bitrates. This paper proposes a hybrid
codec for machines called NN-VVC, which combines the advantages of an
E2E-learned image codec and a CVC to achieve high performance in both image and
video coding for machines. Our experiments show that the proposed system
achieved up to -43.20% and -26.8% Bj{\o}ntegaard Delta rate reduction over VVC
for image and video data, respectively, when evaluated on multiple different
datasets and machine vision tasks. To the best of our knowledge, this is the
first research paper showing a hybrid video codec that outperforms VVC on
multiple datasets and multiple machine vision tasks.
- Abstract(参考訳): 近年の人工知能の進歩は、ニューラルネットワークを中心に、機械解析アルゴリズムによる画像やビデオの利用をますます増加させている。
それでも、メディアの圧縮、保存、送信は伝統的にコンテンツの視聴者として人間を考慮して設計されてきた。
機械解析のための画像と映像の符号化に関する最近の研究は、主に2つのほぼ直交方向に進んでいる。
1つ目はエンドツーエンド(E2E)の学習コーデックであり、画像符号化のパフォーマンスは高いが、従来のビデオコーデックに匹敵せず、相互運用性に欠ける。
第2の方向性は、VVC(Versatile Video Coding)標準または他の従来のビデオコーデック(CVC)と、マシン分析を対象とする前処理と後処理の操作を併用することである。
CVCベースの手法はインターオペラビリティと幅広いハードウェアとソフトウェアのサポートの恩恵を受けるが、特に低ビットレートにおいて、マシンタスクのパフォーマンスは望ましいレベルよりも低い。
本稿では, NN-VVC と呼ばれるマシン用ハイブリッドコーデックを提案する。このコーデックは, E2E 学習画像コーデックと CVC の利点を組み合わせて, マシン用画像符号化とビデオ符号化の両方において高い性能を実現する。
実験の結果,複数の異なるデータセットとマシンビジョンタスクで評価した場合,提案方式はvvcよりも-43.20%,-26.8%のbj{\o}ntegaardデルタレート低下を達成した。
我々の知る限りでは、複数のデータセットと複数のマシンビジョンタスクでVVCを上回るパフォーマンスを持つハイブリッドビデオコーデックを示す最初の研究論文である。
関連論文リスト
- Learned Scalable Video Coding For Humans and Machines [39.32955669909719]
本稿では,機械ビジョンタスクをベース層でサポートする最初のエンドツーエンドの学習可能なビデオを紹介し,その拡張レイヤは人間の視聴のための入力再構成をサポートする。
我々のフレームワークは、その基盤層において、最先端の学習と従来のビデオコーデックの両方を上回り、その拡張層では、人間の視覚タスクに匹敵する性能を維持している。
論文 参考訳(メタデータ) (2023-07-18T05:22:25Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - VVC Extension Scheme for Object Detection Using Contrast Reduction [0.0]
Versatile Video Coding (VVC) を用いたオブジェクト検出のためのビデオ符号化の拡張方式を提案する。
提案方式では,元の画像のサイズとコントラストを小さくし,VVCエンコーダで符号化して高圧縮性能を実現する。
実験結果から,提案手法はオブジェクト検出精度の点で,通常のVVCよりも優れた符号化性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-30T06:29:04Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Task Oriented Video Coding: A Survey [0.5076419064097732]
H.265/HEVCやVersatile Video Codingのような最先端のビデオコーディング標準は、圧縮されたビデオが人間によって監視されると仮定して設計されている。
コンピュータビジョンタスクの解法におけるディープニューラルネットワークの飛躍的な進歩と成熟により、人間の関与なしにディープニューラルネットワークによって直接分析されるビデオはますます増えている。
コンピュータビジョンタスク指向のビデオコーディングと新しいビデオコーディング標準である Video Coding for Machines の最近の進歩を探求し要約する。
論文 参考訳(メタデータ) (2022-08-15T16:21:54Z) - Perceptual Coding for Compressed Video Understanding: A New Framework
and Benchmark [57.23523738351178]
本稿では,ビデオ理解のための最初のプログラミングフレームワークを提案する。このフレームワークでは,別の学習可能な知覚ビットストリームを導入し,同時にビデオビットストリームを転送する。
このフレームワークは,(1)産業用ビデオの高能率コンテンツ符号化,(2)ニューラルネットワーク(NN)のフレキシブルパーセプチュアル符号化,という2つの世界の長所を享受することができる。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Adaptation and Attention for Neural Video Coding [23.116987835862314]
本稿では,いくつかの建築ノベルティとトレーニングノベルティを紹介するエンド・ツー・エンドの学習ビデオを提案する。
1つのアーキテクチャ上の特徴として,入力ビデオの解像度に基づいて動き推定プロセスを適用するために,フレーム間モデルをトレーニングすることを提案する。
第2のアーキテクチャノベルティは、分割アテンションベースのニューラルネットワークとDenseNetsの概念を組み合わせた、新しいニューラルブロックである。
論文 参考訳(メタデータ) (2021-12-16T10:25:49Z) - Multitask Learning for VVC Quality Enhancement and Super-Resolution [11.446576112498596]
デコードされたVVCビデオ品質を高めるための後処理のステップとして学習ベースのソリューションを提案します。
提案手法はマルチタスク学習に依存し,複数のレベルに最適化された1つの共有ネットワークを用いて品質向上と超解像化を実現する。
論文 参考訳(メタデータ) (2021-04-16T19:05:26Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。