論文の概要: LVVC: A Learned Versatile Video Coding Framework for Efficient
Human-Machine Vision
- arxiv url: http://arxiv.org/abs/2306.10681v1
- Date: Mon, 19 Jun 2023 03:04:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 19:15:45.563835
- Title: LVVC: A Learned Versatile Video Coding Framework for Efficient
Human-Machine Vision
- Title(参考訳): LVVC: 効率的なヒューマン・マシンビジョンのための学習型ビデオ符号化フレームワーク
- Authors: Xihua Sheng, Li Li, Dong Liu, Houqiang Li
- Abstract要約: 本稿では,デコーディングと直接処理/分析の両方をサポートするために,コンパクトな表現を学習することを目的とした,学習多目的ビデオ符号化(LVVC)フレームワークを提案する。
我々のLVVCフレームワークは機能ベースの圧縮ループを持ち、1つのフレームを中間機能に符号化(復号化)し、中間機能を参照して次のフレームを符号化(復号化)する。
LVVCフレームワークでは、中間機能を使ってビデオを再構成したり、異なるタスクネットワークに入力したりすることができる。
- 参考スコア(独自算出の注目度): 80.47192437957847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Almost all digital videos are coded into compact representations before being
transmitted. Such compact representations need to be decoded back to pixels
before being displayed to human and - as usual - before being
processed/analyzed by machine vision algorithms. For machine vision, it is more
efficient at least conceptually, to process/analyze the coded representations
directly without decoding them into pixels. Motivated by this concept, we
propose a learned versatile video coding (LVVC) framework, which targets on
learning compact representations to support both decoding and direct
processing/analysis, thereby being versatile for both human and machine vision.
Our LVVC framework has a feature-based compression loop, where one frame is
encoded (resp. decoded) to intermediate features, and the intermediate features
are referenced for encoding (resp. decoding) the following frames. Our proposed
feature-based compression loop has two key technologies, one is feature-based
temporal context mining, and the other is cross-domain motion encoder/decoder.
With the LVVC framework, the intermediate features may be used to reconstruct
videos, or be fed into different task networks. The LVVC framework is
implemented and evaluated with video reconstruction, video processing, and
video analysis tasks on the well-established benchmark datasets. The evaluation
results demonstrate the compression efficiency of the proposed LVVC framework.
- Abstract(参考訳): ほとんど全てのデジタルビデオは送信前にコンパクトな表現に符号化される。
このようなコンパクトな表現は、マシンビジョンアルゴリズムによって処理/分析される前に、人間が表示する前にピクセルにデコードする必要がある。
マシンビジョンでは、少なくとも概念的には、コード化された表現を直接ピクセルにデコードすることなく処理/分析することがより効率的である。
この概念に触発された学習多目的ビデオ符号化(LVVC)フレームワークは、デコードと直接処理/分析の両方をサポートするコンパクト表現の学習を目標とし、人間と機械の視覚の両方に汎用性を持たせる。
我々のLVVCフレームワークは機能ベースの圧縮ループを持ち、1つのフレームを中間機能に符号化(復号化)し、中間機能を参照して次のフレームを符号化(復号化)する。
提案する特徴ベースの圧縮ループには,特徴ベースの時間的コンテキストマイニングとクロスドメインモーションエンコーダ/デコーダという2つの重要な技術がある。
LVVCフレームワークでは、中間機能を使ってビデオを再構成したり、異なるタスクネットワークに入力したりすることができる。
LVVCフレームワークは、十分に確立されたベンチマークデータセット上で、ビデオ再構成、ビデオ処理、およびビデオ解析タスクを用いて実装され、評価される。
評価結果は,提案したLVVCフレームワークの圧縮効率を示す。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Human-Machine Collaborative Video Coding Through Cuboidal Partitioning [26.70051123157869]
本稿では,人間の視覚と,キュービドを用いたマシンビジョンアプリケーションの間に存在する共通性を活用することによって,映像符号化フレームワークを提案する。
ビデオフレーム上の矩形領域を推定する立方体は、計算的に効率的であり、コンパクトな表現とオブジェクト中心である。
ここでは、現在のフレームから立方体特徴記述子を抽出し、オブジェクト検出の形式で機械ビジョンタスクを達成するために使用される。
論文 参考訳(メタデータ) (2021-02-02T04:44:45Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。