論文の概要: Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics
- arxiv url: http://arxiv.org/abs/2110.09241v1
- Date: Mon, 18 Oct 2021 12:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 17:18:44.731247
- Title: Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics
- Title(参考訳): 機械用ビデオ符号化:知的協調分析のためのコンパクトな視覚表現圧縮
- Authors: Wenhan Yang, Haofeng Huang, Yueyu Hu, Ling-Yu Duan, Jiaying Liu
- Abstract要約: Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
- 参考スコア(独自算出の注目度): 101.35754364753409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Coding for Machines (VCM) is committed to bridging to an extent
separate research tracks of video/image compression and feature compression,
and attempts to optimize compactness and efficiency jointly from a unified
perspective of high accuracy machine vision and full fidelity human vision. In
this paper, we summarize VCM methodology and philosophy based on existing
academia and industrial efforts. The development of VCM follows a general
rate-distortion optimization, and the categorization of key modules or
techniques is established. From previous works, it is demonstrated that,
although existing works attempt to reveal the nature of scalable representation
in bits when dealing with machine and human vision tasks, there remains a rare
study in the generality of low bit rate representation, and accordingly how to
support a variety of visual analytic tasks. Therefore, we investigate a novel
visual information compression for the analytics taxonomy problem to strengthen
the capability of compact visual representations extracted from multiple tasks
for visual analytics. A new perspective of task relationships versus
compression is revisited. By keeping in mind the transferability among
different machine vision tasks (e.g. high-level semantic and mid-level
geometry-related), we aim to support multiple tasks jointly at low bit rates.
In particular, to narrow the dimensionality gap between neural network
generated features extracted from pixels and a variety of machine vision
features/labels (e.g. scene class, segmentation labels), a codebook hyperprior
is designed to compress the neural network-generated features. As demonstrated
in our experiments, this new hyperprior model is expected to improve feature
compression efficiency by estimating the signal entropy more accurately, which
enables further investigation of the granularity of abstracting compact
features among different tasks.
- Abstract(参考訳): Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジし、高精度マシンビジョンと完全忠実人間のビジョンの統一的な視点から、コンパクト性と効率を両立させようとしている。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
vcmの開発は一般的なレート分散最適化に従い、キーモジュールやテクニックの分類が確立される。
従来の研究から、機械と人間の視覚タスクを扱う際に、スケーラブルな表現の性質をビットで明らかにしようとする研究はあったが、低ビットレートの表現の一般性、そしてそれに応じて様々な視覚分析タスクをどのようにサポートするかについては、稀な研究が残されている。
そこで本研究では,複数タスクから抽出したコンパクトな視覚的表現の能力を強化するために,解析分類問題に対する新しい視覚情報圧縮法について検討する。
タスク間の関係と圧縮に関する新しい視点を再検討する。
異なるマシンビジョンタスク間の転送可能性(例えば、ハイレベル意味論とミッドレベル幾何関係)を念頭に置いて、我々は、低ビットレートで複数のタスクを共同でサポートすることを目指している。
特に、画素から抽出されたニューラルネットワーク生成特徴と様々なマシンビジョン特徴/ラベル(シーンクラス、セグメンテーションラベルなど)の寸法差を狭めるために、コードブックハイパープライアは、ニューラルネットワーク生成特徴を圧縮するように設計されている。
実験で示したように、この超優先モデルでは、より正確に信号エントロピーを推定することで、異なるタスク間でコンパクトな特徴を抽象化する粒度をさらに調査できるため、特徴圧縮効率の向上が期待されている。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision [39.50768518548343]
先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。
キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
論文 参考訳(メタデータ) (2023-12-25T05:57:23Z) - Revisit Visual Representation in Analytics Taxonomy: A Compression
Perspective [69.99087941471882]
圧縮された視覚表現を用いて複数のマシンビジョン分析タスクをサポートする問題について検討する。
異なるタスク間の本質的な転送性を利用することで、低ビットレートでコンパクトで表現力のある表現を構築できる。
表現にコンパクトさを課すために,コードブックベースのハイパープライヤを提案する。
論文 参考訳(メタデータ) (2021-06-16T01:44:32Z) - Towards Analysis-friendly Face Representation with Scalable Feature and
Texture Compression [113.30411004622508]
普遍的で協調的な視覚情報表現は階層的な方法で実現できることを示す。
ディープニューラルネットワークの強力な生成能力に基づいて、基本特徴層と強化層の間のギャップは、特徴レベルのテクスチャ再構築によってさらに埋められる。
提案するフレームワークの効率を改善するために,ベース層ニューラルネットワークをマルチタスクでトレーニングする。
論文 参考訳(メタデータ) (2020-04-21T14:32:49Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。