論文の概要: Task Oriented Video Coding: A Survey
- arxiv url: http://arxiv.org/abs/2208.07313v1
- Date: Mon, 15 Aug 2022 16:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 14:43:32.758339
- Title: Task Oriented Video Coding: A Survey
- Title(参考訳): タスク指向ビデオコーディング:調査
- Authors: Daniel Wood
- Abstract要約: H.265/HEVCやVersatile Video Codingのような最先端のビデオコーディング標準は、圧縮されたビデオが人間によって監視されると仮定して設計されている。
コンピュータビジョンタスクの解法におけるディープニューラルネットワークの飛躍的な進歩と成熟により、人間の関与なしにディープニューラルネットワークによって直接分析されるビデオはますます増えている。
コンピュータビジョンタスク指向のビデオコーディングと新しいビデオコーディング標準である Video Coding for Machines の最近の進歩を探求し要約する。
- 参考スコア(独自算出の注目度): 0.5076419064097732
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video coding technology has been continuously improved for higher compression
ratio with higher resolution. However, the state-of-the-art video coding
standards, such as H.265/HEVC and Versatile Video Coding, are still designed
with the assumption the compressed video will be watched by humans. With the
tremendous advance and maturation of deep neural networks in solving computer
vision tasks, more and more videos are directly analyzed by deep neural
networks without humans' involvement. Such a conventional design for video
coding standard is not optimal when the compressed video is used by computer
vision applications. While the human visual system is consistently sensitive to
the content with high contrast, the impact of pixels on computer vision
algorithms is driven by specific computer vision tasks. In this paper, we
explore and summarize recent progress on computer vision task oriented video
coding and emerging video coding standard, Video Coding for Machines.
- Abstract(参考訳): ビデオ符号化技術は高解像度の圧縮比で継続的に改善されている。
しかし、H.265/HEVCやVersatile Video Codingのような最先端のビデオコーディング標準は、圧縮ビデオが人間によって監視されるという前提で設計されている。
コンピュータビジョンタスクの解法におけるディープニューラルネットワークの飛躍的な進歩と成熟により、人間の関与なしにディープニューラルネットワークによって直接分析されるビデオはますます増えている。
圧縮ビデオがコンピュータビジョンアプリケーションで使用される場合、従来のビデオ符号化標準の設計は最適ではない。
人間の視覚システムはコントラストの高いコンテンツに常に敏感であるが、コンピュータビジョンアルゴリズムに対する画素の影響は特定のコンピュータビジョンタスクによって駆動される。
本稿では,コンピュータビジョンタスク指向のビデオ符号化と新しいビデオ符号化標準である Video Coding for Machines の最近の進歩を考察し,要約する。
関連論文リスト
- One-Click Upgrade from 2D to 3D: Sandwiched RGB-D Video Compression for Stereoscopic Teleconferencing [13.74209129258984]
本稿では, ステレオRGB-Dビデオ圧縮をサポートするために, ニューラルプレプロセッサとポストプロセッサのペアでラップすることで, 2次元映像をアップグレードする手法を提案する。
我々は、合成された4D人物データセットでニューラルプリプロセッサとポストプロセッサをトレーニングし、合成されたステレオRGB-Dビデオと実際のキャプチャーされたステレオRGB-Dビデオの両方で評価する。
提案手法は従来のビデオ符号化方式やMV-HEVCと比べ約30%のビットレートを、新しい視点から同一のレンダリング品質で保存する。
論文 参考訳(メタデータ) (2024-04-15T17:56:05Z) - NN-VVC: Versatile Video Coding boosted by self-supervisedly learned
image coding for machines [19.183883119933558]
本稿では, NN-VVC という, E2E 学習画像と CVC の利点を組み合わせて, 画像符号化と映像符号化の両面において高い性能を実現するマシン用ハイブリッドを提案する。
実験の結果,提案システムは画像データとビデオデータのVVCよりも最大で-43.20%,-26.8%のBjontegaard Deltaレート低下を達成した。
論文 参考訳(メタデータ) (2024-01-19T15:33:46Z) - Learned Scalable Video Coding For Humans and Machines [39.32955669909719]
本稿では,機械ビジョンタスクをベース層でサポートする最初のエンドツーエンドの学習可能なビデオを紹介し,その拡張レイヤは人間の視聴のための入力再構成をサポートする。
我々のフレームワークは、その基盤層において、最先端の学習と従来のビデオコーデックの両方を上回り、その拡張層では、人間の視覚タスクに匹敵する性能を維持している。
論文 参考訳(メタデータ) (2023-07-18T05:22:25Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - VVC Extension Scheme for Object Detection Using Contrast Reduction [0.0]
Versatile Video Coding (VVC) を用いたオブジェクト検出のためのビデオ符号化の拡張方式を提案する。
提案方式では,元の画像のサイズとコントラストを小さくし,VVCエンコーダで符号化して高圧縮性能を実現する。
実験結果から,提案手法はオブジェクト検出精度の点で,通常のVVCよりも優れた符号化性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-30T06:29:04Z) - A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision [93.90545426665999]
マルチモーダルコンピュータビジョンにおけるマルチタスク学習のための自動回帰デコーダについて詳しく検討する。
鍵となる発見は、凍結した事前訓練されたエンコーダの上で学んだ小さなデコーダが驚くほどうまく機能していることである。
これはデコーダに自然言語で事前訓練された視覚モデルと対話するように教えるものであると見なすことができる。
論文 参考訳(メタデータ) (2023-03-30T13:42:58Z) - Scalable Video Coding for Humans and Machines [42.870358996305356]
本稿では,ベース層ビットストリームによるマシンビジョンと,拡張層ビットストリームによるヒューマンビジョンをサポートするスケーラブルなビデオコーディングフレームワークを提案する。
提案するフレームワークには,従来型とディープニューラルネットワーク(DNN)ベースのビデオ符号化の両方のコンポーネントが含まれている。
論文 参考訳(メタデータ) (2022-08-04T07:45:41Z) - Perceptual Coding for Compressed Video Understanding: A New Framework
and Benchmark [57.23523738351178]
本稿では,ビデオ理解のための最初のプログラミングフレームワークを提案する。このフレームワークでは,別の学習可能な知覚ビットストリームを導入し,同時にビデオビットストリームを転送する。
このフレームワークは,(1)産業用ビデオの高能率コンテンツ符号化,(2)ニューラルネットワーク(NN)のフレキシブルパーセプチュアル符号化,という2つの世界の長所を享受することができる。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。