論文の概要: Learned Scalable Video Coding For Humans and Machines
- arxiv url: http://arxiv.org/abs/2307.08978v1
- Date: Tue, 18 Jul 2023 05:22:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 16:34:58.541788
- Title: Learned Scalable Video Coding For Humans and Machines
- Title(参考訳): 人間と機械のためのスケーラブルなビデオコーディング
- Authors: Hadi Hadizadeh and Ivan V. Baji\'c
- Abstract要約: 本稿では,機械ビジョンタスクをベース層でサポートする最初のエンドツーエンドの学習可能なビデオを紹介し,その拡張レイヤは人間の視聴のための入力再構成をサポートする。
我々のフレームワークは、その基盤層において、最先端の学習と従来のビデオコーデックの両方を上回り、その拡張層では、人間の視覚タスクに匹敵する性能を維持している。
- 参考スコア(独自算出の注目度): 39.32955669909719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video coding has traditionally been developed to support services such as
video streaming, videoconferencing, digital TV, and so on. The main intent was
to enable human viewing of the encoded content. However, with the advances in
deep neural networks (DNNs), encoded video is increasingly being used for
automatic video analytics performed by machines. In applications such as
automatic traffic monitoring, analytics such as vehicle detection, tracking and
counting, would run continuously, while human viewing could be required
occasionally to review potential incidents. To support such applications, a new
paradigm for video coding is needed that will facilitate efficient
representation and compression of video for both machine and human use in a
scalable manner. In this manuscript, we introduce the first end-to-end
learnable video codec that supports a machine vision task in its base layer,
while its enhancement layer supports input reconstruction for human viewing.
The proposed system is constructed based on the concept of conditional coding
to achieve better compression gains. Comprehensive experimental evaluations
conducted on four standard video datasets demonstrate that our framework
outperforms both state-of-the-art learned and conventional video codecs in its
base layer, while maintaining comparable performance on the human vision task
in its enhancement layer. We will provide the implementation of the proposed
system at www.github.com upon completion of the review process.
- Abstract(参考訳): ビデオコーディングは伝統的に、ビデオストリーミング、ビデオ会議、デジタルテレビなどのサービスをサポートするために開発されてきた。
主な目的は、人間がエンコードされたコンテンツを閲覧できるようにすることであった。
しかし、ディープニューラルネットワーク(dnn)の進歩により、エンコードされたビデオは機械が行う自動ビデオ分析にますます使われている。
自動交通監視のようなアプリケーションでは、車両の検知、追跡、計数などの分析は継続的に行われ、人間の視認は潜在的なインシデントをレビューするために時々必要となる。
このようなアプリケーションをサポートするためには、機械と人の両方でビデオの効率的な表現と圧縮をスケーラブルに行えるビデオ符号化の新しいパラダイムが必要である。
本稿では,機械ビジョンタスクをベース層でサポートする最初のエンドツーエンドの学習可能ビデオコーデックを紹介し,その拡張レイヤは人間の視聴のための入力再構成をサポートする。
より優れた圧縮ゲインを実現するために,条件付き符号化の概念に基づいて提案システムを構築した。
4つの標準ビデオデータセットで行った総合的な実験評価により、本フレームワークは、基礎層における最先端学習コーデックと従来のビデオコーデックの両方よりも優れており、その強化層において人間の視覚タスクで同等の性能を維持していることが示された。
レビュープロセスが完了すると、提案システムの実装をwww.github.comで提供します。
関連論文リスト
- NN-VVC: Versatile Video Coding boosted by self-supervisedly learned
image coding for machines [19.183883119933558]
本稿では, NN-VVC という, E2E 学習画像と CVC の利点を組み合わせて, 画像符号化と映像符号化の両面において高い性能を実現するマシン用ハイブリッドを提案する。
実験の結果,提案システムは画像データとビデオデータのVVCよりも最大で-43.20%,-26.8%のBjontegaard Deltaレート低下を達成した。
論文 参考訳(メタデータ) (2024-01-19T15:33:46Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Task Oriented Video Coding: A Survey [0.5076419064097732]
H.265/HEVCやVersatile Video Codingのような最先端のビデオコーディング標準は、圧縮されたビデオが人間によって監視されると仮定して設計されている。
コンピュータビジョンタスクの解法におけるディープニューラルネットワークの飛躍的な進歩と成熟により、人間の関与なしにディープニューラルネットワークによって直接分析されるビデオはますます増えている。
コンピュータビジョンタスク指向のビデオコーディングと新しいビデオコーディング標準である Video Coding for Machines の最近の進歩を探求し要約する。
論文 参考訳(メタデータ) (2022-08-15T16:21:54Z) - Scalable Video Coding for Humans and Machines [42.870358996305356]
本稿では,ベース層ビットストリームによるマシンビジョンと,拡張層ビットストリームによるヒューマンビジョンをサポートするスケーラブルなビデオコーディングフレームワークを提案する。
提案するフレームワークには,従来型とディープニューラルネットワーク(DNN)ベースのビデオ符号化の両方のコンポーネントが含まれている。
論文 参考訳(メタデータ) (2022-08-04T07:45:41Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z) - Human-Machine Collaborative Video Coding Through Cuboidal Partitioning [26.70051123157869]
本稿では,人間の視覚と,キュービドを用いたマシンビジョンアプリケーションの間に存在する共通性を活用することによって,映像符号化フレームワークを提案する。
ビデオフレーム上の矩形領域を推定する立方体は、計算的に効率的であり、コンパクトな表現とオブジェクト中心である。
ここでは、現在のフレームから立方体特徴記述子を抽出し、オブジェクト検出の形式で機械ビジョンタスクを達成するために使用される。
論文 参考訳(メタデータ) (2021-02-02T04:44:45Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。