論文の概要: Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics
- arxiv url: http://arxiv.org/abs/2001.03569v2
- Date: Mon, 13 Jan 2020 16:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 23:13:40.249074
- Title: Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics
- Title(参考訳): 機械のための映像符号化:協調圧縮とインテリジェント分析のパラダイム
- Authors: Ling-Yu Duan, Jiaying Liu, Wenhan Yang, Tiejun Huang, Wen Gao
- Abstract要約: フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
- 参考スコア(独自算出の注目度): 127.65410486227007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video coding, which targets to compress and reconstruct the whole frame, and
feature compression, which only preserves and transmits the most critical
information, stand at two ends of the scale. That is, one is with compactness
and efficiency to serve for machine vision, and the other is with full
fidelity, bowing to human perception. The recent endeavors in imminent trends
of video compression, e.g. deep learning based coding tools and end-to-end
image/video coding, and MPEG-7 compact feature descriptor standards, i.e.
Compact Descriptors for Visual Search and Compact Descriptors for Video
Analysis, promote the sustainable and fast development in their own directions,
respectively. In this paper, thanks to booming AI technology, e.g. prediction
and generation models, we carry out exploration in the new area, Video Coding
for Machines (VCM), arising from the emerging MPEG standardization efforts1.
Towards collaborative compression and intelligent analytics, VCM attempts to
bridge the gap between feature coding for machine vision and video coding for
human vision. Aligning with the rising Analyze then Compress instance Digital
Retina, the definition, formulation, and paradigm of VCM are given first.
Meanwhile, we systematically review state-of-the-art techniques in video
compression and feature compression from the unique perspective of MPEG
standardization, which provides the academic and industrial evidence to realize
the collaborative compression of video and feature streams in a broad range of
AI applications. Finally, we come up with potential VCM solutions, and the
preliminary results have demonstrated the performance and efficiency gains.
Further direction is discussed as well.
- Abstract(参考訳): フレーム全体の圧縮と再構成を目標とするビデオ符号化と、最も重要な情報を保存して送信するだけの特徴圧縮は、スケールの2つの端に立っている。
つまり、機械ビジョンのためにコンパクトさと効率性を持ち、もう1つは完全な忠実さを持ち、人間の知覚に屈する。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールとエンドツーエンドのイメージ/ビデオコーディング、MPEG-7コンパクト機能記述子標準、すなわち、ビジュアル検索用コンパクト記述子とビデオ分析用コンパクト記述子への取り組みは、それぞれの方向に持続的および迅速な開発を促進する。
本稿では,新たなmpeg標準化の取り組みであるvcm(video coding for machines)について,予測・生成モデルなどのai技術の普及により,新たな分野の探索を行う。
協調的な圧縮とインテリジェントな分析を目指して、VCMは、マシンビジョンのフィーチャーコーディングと人間のビジョンのビデオコーディングのギャップを埋めようとしている。
上昇するAnalyzeに従って、CompressインスタンスのDigital Retina、VCMの定義、定式化、パラダイムが最初に与えられる。
一方,mpeg標準化の観点からは,映像圧縮と特徴圧縮の最先端技術について体系的に検討し,幅広いaiアプリケーションにおいて映像と特徴ストリームの協調圧縮を実現するための学術的・工業的証拠を提供する。
最後に、潜在的なVCMソリューションを考案し、その性能と効率性を示す予備的な結果を得た。
さらなる方向性についても論じる。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - NN-VVC: Versatile Video Coding boosted by self-supervisedly learned
image coding for machines [19.183883119933558]
本稿では, NN-VVC という, E2E 学習画像と CVC の利点を組み合わせて, 画像符号化と映像符号化の両面において高い性能を実現するマシン用ハイブリッドを提案する。
実験の結果,提案システムは画像データとビデオデータのVVCよりも最大で-43.20%,-26.8%のBjontegaard Deltaレート低下を達成した。
論文 参考訳(メタデータ) (2024-01-19T15:33:46Z) - End-to-End Learnable Multi-Scale Feature Compression for VCM [8.037759667748768]
抽出した特徴量に対するエンドツーエンドの最適化と軽量エンコーダの設計を可能にする,新しいマルチスケール特徴量圧縮手法を提案する。
我々のモデルは、BDレートを少なくとも52%削減し、オブジェクト検出の符号化時間を$times5$から$times27$に短縮する。
論文 参考訳(メタデータ) (2023-06-29T04:05:13Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。