論文の概要: An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal
- arxiv url: http://arxiv.org/abs/2001.03004v1
- Date: Thu, 9 Jan 2020 14:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 05:15:46.740025
- Title: An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal
- Title(参考訳): 新たなコーディングパラダイムVCM: 特徴と信号を超えたスケーラブルなコーディングアプローチ
- Authors: Sifeng Xia, Kunchangtai Liang, Wenhan Yang, Ling-Yu Duan and Jiaying
Liu
- Abstract要約: Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
- 参考スコア(独自算出の注目度): 99.49099501559652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study a new problem arising from the emerging MPEG
standardization effort Video Coding for Machine (VCM), which aims to bridge the
gap between visual feature compression and classical video coding. VCM is
committed to address the requirement of compact signal representation for both
machine and human vision in a more or less scalable way. To this end, we make
endeavors in leveraging the strength of predictive and generative models to
support advanced compression techniques for both machine and human vision tasks
simultaneously, in which visual features serve as a bridge to connect
signal-level and task-level compact representations in a scalable manner.
Specifically, we employ a conditional deep generation network to reconstruct
video frames with the guidance of learned motion pattern. By learning to
extract sparse motion pattern via a predictive model, the network elegantly
leverages the feature representation to generate the appearance of to-be-coded
frames via a generative model, relying on the appearance of the coded key
frames. Meanwhile, the sparse motion pattern is compact and highly effective
for high-level vision tasks, e.g. action recognition. Experimental results
demonstrate that our method yields much better reconstruction quality compared
with the traditional video codecs (0.0063 gain in SSIM), as well as
state-of-the-art action recognition performance over highly compressed videos
(9.4% gain in recognition accuracy), which showcases a promising paradigm of
coding signal for both human and machine vision.
- Abstract(参考訳): 本稿では,視覚的特徴圧縮と古典的映像符号化のギャップを埋めることを目的とした,新たなMPEG標準化活動であるVCM(Video Coding for Machine)から生じる新たな課題について検討する。
VCMは、機械と人間の視覚の両方において、多かれ少なかれスケーラブルな方法で、コンパクトな信号表現の必要性に対処することを約束している。
この目的を達成するために,予測モデルと生成モデルの強みを活用して,視覚特徴を信号レベルとタスクレベルのコンパクト表現をスケーラブルに接続するブリッジとして機能する,機械と人間の視覚タスクの高度な圧縮技術を同時にサポートする。
具体的には,学習した動きパターンのガイダンスを用いて映像フレームを再構成する条件付き深層生成ネットワークを用いる。
予測モデルを介してスパースモーションパターンを抽出することを学習することにより、ネットワークは、特徴表現をエレガントに活用して、符号化されたキーフレームの出現に依存する生成モデルを介して、to-be-codedフレームの外観を生成する。
一方、スパースモーションパターンはコンパクトで、アクション認識のようなハイレベルな視覚タスクに非常に効果的である。
実験の結果,従来のビデオコーデック(ssimでは0.0063ゲイン)に比べ,高い圧縮ビデオに対する最先端の動作認識性能(認識精度の9.4%向上)とともに,人間と機械の両方に対する符号化信号の有望なパラダイムを示している。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Towards Modality Transferable Visual Information Representation with
Optimal Model Compression [67.89885998586995]
本稿では,伝達可能なモダリティの原理を活かした視覚信号表現手法を提案する。
提案するフレームワークは最先端のビデオコーディング標準に実装されている。
論文 参考訳(メタデータ) (2020-08-13T01:52:40Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。