論文の概要: A New Image Codec Paradigm for Human and Machine Uses
- arxiv url: http://arxiv.org/abs/2112.10071v1
- Date: Sun, 19 Dec 2021 06:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 17:55:46.415006
- Title: A New Image Codec Paradigm for Human and Machine Uses
- Title(参考訳): 人間と機械のための新しい画像コーデックパラダイム
- Authors: Sien Chen, Jian Jin, Lili Meng, Weisi Lin, Zhuo Chen, Tsui-Shan Chang,
Zhengguang Li, Huaxiang Zhang
- Abstract要約: 本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
- 参考スコア(独自算出の注目度): 53.48873918537017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the AI of Things (AIoT) development, a huge amount of visual data, e.g.,
images and videos, are produced in our daily work and life. These visual data
are not only used for human viewing or understanding but also for machine
analysis or decision-making, e.g., intelligent surveillance, automated
vehicles, and many other smart city applications. To this end, a new image
codec paradigm for both human and machine uses is proposed in this work.
Firstly, the high-level instance segmentation map and the low-level signal
features are extracted with neural networks. Then, the instance segmentation
map is further represented as a profile with the proposed 16-bit gray-scale
representation. After that, both 16-bit gray-scale profile and signal features
are encoded with a lossless codec. Meanwhile, an image predictor is designed
and trained to achieve the general-quality image reconstruction with the 16-bit
gray-scale profile and signal features. Finally, the residual map between the
original image and the predicted one is compressed with a lossy codec, used for
high-quality image reconstruction. With such designs, on the one hand, we can
achieve scalable image compression to meet the requirements of different human
consumption; on the other hand, we can directly achieve several machine vision
tasks at the decoder side with the decoded 16-bit gray-scale profile, e.g.,
object classification, detection, and segmentation. Experimental results show
that the proposed codec achieves comparable results as most learning-based
codecs and outperforms the traditional codecs (e.g., BPG and JPEG2000) in terms
of PSNR and MS-SSIM for image reconstruction. At the same time, it outperforms
the existing codecs in terms of the mAP for object detection and segmentation.
- Abstract(参考訳): AI of Things(AIoT)開発では、画像やビデオなどの膨大なビジュアルデータが、日々の作業や生活の中で生成されます。
これらの視覚データは、人間の観察や理解だけでなく、機械分析や意思決定、例えばインテリジェントな監視、自動走行車、その他多くのスマートシティアプリケーションにも使用される。
この目的のために、人間と機械の両方で使用する新しいイメージコーデックパラダイムが提案されている。
まず、高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
次に、インスタンスセグメンテーションマップを、提案する16ビットグレースケール表現のプロファイルとして表現する。
その後、16ビットのグレースケールプロファイルと信号機能は、損失のないコーデックでエンコードされる。
一方、画像予測器は16ビットのグレースケールプロファイルと信号特徴を持つ一般品質の画像再構成を実現するために設計・訓練されている。
最後に、原画像と予測画像との残差マップを、高品質な画像再構成に用いる損失コーデックで圧縮する。
このような設計では、異なる人間の消費の要件を満たすために、スケーラブルな画像圧縮を実現することができる一方、デコーダ側では、オブジェクトの分類、検出、セグメンテーションなど、デコードされた16ビットグレースケールプロファイルを用いて、複数のマシンビジョンタスクを直接達成することができる。
実験の結果,提案コーデックは学習ベースのコーデックと同等の結果を得られ,画像再構成のためのpsnrとms-ssimで従来のコーデック(例えば bpg と jpeg2000)を上回った。
同時に、オブジェクトの検出とセグメンテーションのmAPの観点から、既存のコーデックよりも優れています。
関連論文リスト
- Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs [47.7670923159071]
我々は,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。
textitSemantically textitDisentangled textitCompression'' の textitSDComp' メソッドをダブし、様々な視覚タスクの最先端コーデックと比較する。
論文 参考訳(メタデータ) (2024-08-16T07:23:18Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Image coding for machines: an end-to-end learned approach [23.92748892163087]
本稿では,ニューラルネットワーク(NN)とエンドツーエンド学習を併用したマシンのための画像を提案する。
我々のNNベースのタスクは、オブジェクト検出およびインスタンス分割タスクにおいて、最先端のVersa-tile Video Coding(VVC)標準よりも優れていることを示す。
私たちの知る限りでは、これが初めて学習された機械学習画像の歪みである。
論文 参考訳(メタデータ) (2021-08-23T07:54:42Z) - Image Compression with Encoder-Decoder Matched Semantic Segmentation [15.536056887418676]
レイヤー画像圧縮は有望な方向です。
セマンティックセグメントを圧縮された画像データと共に送信する作業もある。
エンコーダマッチングセマンティックセグメンテーション(EDMS)を用いた新しいレイヤー画像圧縮フレームワークを提案する。
提案されたEDMSフレームワークは、HEVCベース(BPG)エンコーディング時間よりも最大35.31%のBDレート削減を達成できる。
論文 参考訳(メタデータ) (2021-01-24T04:11:05Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。