論文の概要: VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision
- arxiv url: http://arxiv.org/abs/2306.10681v2
- Date: Wed, 1 Nov 2023 04:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 17:21:59.704885
- Title: VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision
- Title(参考訳): vnvc - 効率的なヒューマンマシンビジョンのための汎用ニューラルビデオ符号化フレームワーク
- Authors: Xihua Sheng, Li Li, Dong Liu, Houqiang Li
- Abstract要約: コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 59.632286735304156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Almost all digital videos are coded into compact representations before being
transmitted. Such compact representations need to be decoded back to pixels
before being displayed to humans and - as usual - before being
enhanced/analyzed by machine vision algorithms. Intuitively, it is more
efficient to enhance/analyze the coded representations directly without
decoding them into pixels. Therefore, we propose a versatile neural video
coding (VNVC) framework, which targets learning compact representations to
support both reconstruction and direct enhancement/analysis, thereby being
versatile for both human and machine vision. Our VNVC framework has a
feature-based compression loop. In the loop, one frame is encoded into compact
representations and decoded to an intermediate feature that is obtained before
performing reconstruction. The intermediate feature can be used as reference in
motion compensation and motion estimation through feature-based temporal
context mining and cross-domain motion encoder-decoder to compress the
following frames. The intermediate feature is directly fed into video
reconstruction, video enhancement, and video analysis networks to evaluate its
effectiveness. The evaluation shows that our framework with the intermediate
feature achieves high compression efficiency for video reconstruction and
satisfactory task performances with lower complexities.
- Abstract(参考訳): ほとんど全てのデジタルビデオは送信前にコンパクトな表現に符号化される。
このようなコンパクト表現は、機械ビジョンアルゴリズムによって拡張/分析される前に、人間に表示される前にピクセルにデコードする必要がある。
直感的には、コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
そこで我々は,再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目的とした汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
我々のVNVCフレームワークは機能ベースの圧縮ループを持っています。
このループでは、1つのフレームをコンパクトな表現に符号化し、再構成する前に得られる中間特徴に復号する。
中間機能は、特徴に基づく時間文脈マイニングとクロスドメインモーションエンコーダデコーダによる動き補償や動き推定の参照として使用することができ、以下のフレームを圧縮することができる。
中間機能は、その効果を評価するために、ビデオ再構成、ビデオエンハンスメント、ビデオ分析ネットワークに直接供給される。
評価の結果,中間機能を持つフレームワークは,映像再構成の圧縮効率が高く,複雑度の低いタスク性能が良好であることがわかった。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Human-Machine Collaborative Video Coding Through Cuboidal Partitioning [26.70051123157869]
本稿では,人間の視覚と,キュービドを用いたマシンビジョンアプリケーションの間に存在する共通性を活用することによって,映像符号化フレームワークを提案する。
ビデオフレーム上の矩形領域を推定する立方体は、計算的に効率的であり、コンパクトな表現とオブジェクト中心である。
ここでは、現在のフレームから立方体特徴記述子を抽出し、オブジェクト検出の形式で機械ビジョンタスクを達成するために使用される。
論文 参考訳(メタデータ) (2021-02-02T04:44:45Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。