論文の概要: Rate-Distortion in Image Coding for Machines
- arxiv url: http://arxiv.org/abs/2209.11694v1
- Date: Wed, 21 Sep 2022 20:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 17:15:47.059047
- Title: Rate-Distortion in Image Coding for Machines
- Title(参考訳): 機械画像符号化における速度歪み
- Authors: Alon Harell, Anderson De Andrade, and Ivan V. Bajic
- Abstract要約: 監視などの多くのアプリケーションでは、画像は主として自動分析のために送信され、人間が見ることは滅多にない。
このシナリオの従来の圧縮はビットレートの点で非効率であることが示されている。
このようなスケーラブルなモデルのマシンサイドを作成する方法の1つは、マシンタスクを実行するディープニューラルネットワークにおいて、中間層の機能マッチングを実行することである。
- 参考スコア(独自算出の注目度): 26.32381277880991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been a sharp increase in transmission of images to
remote servers specifically for the purpose of computer vision. In many
applications, such as surveillance, images are mostly transmitted for automated
analysis, and rarely seen by humans. Using traditional compression for this
scenario has been shown to be inefficient in terms of bit-rate, likely due to
the focus on human based distortion metrics. Thus, it is important to create
specific image coding methods for joint use by humans and machines. One way to
create the machine side of such a codec is to perform feature matching of some
intermediate layer in a Deep Neural Network performing the machine task. In
this work, we explore the effects of the layer choice used in training a
learnable codec for humans and machines. We prove, using the data processing
inequality, that matching features from deeper layers is preferable in the
sense of rate-distortion. Next, we confirm our findings empirically by
re-training an existing model for scalable human-machine coding. In our
experiments we show the trade-off between the human and machine sides of such a
scalable model, and discuss the benefit of using deeper layers for training in
that regard.
- Abstract(参考訳): 近年,特にコンピュータビジョンを目的としたリモートサーバへの画像送信が急増している。
監視のような多くのアプリケーションでは、画像は自動分析のために送信され、人間が見ることは滅多にない。
このシナリオに従来の圧縮を使用する場合、ビットレートの面では非効率であることが示されている。
したがって、人間と機械が共用するための特定の画像符号化手法を作成することが重要である。
このようなコーデックのマシンサイドを作成する1つの方法は、機械タスクを実行するディープニューラルネットワークにおいて、中間層の特徴マッチングを実行することである。
本研究では,人間と機械の学習可能なコーデックの学習に使用する層選択の効果について検討する。
我々は、データ処理の不等式を用いて、より深い層からのマッチング機能が、レート歪みという意味で好ましいことを証明した。
次に,スケーラブルなヒューマンマシンコーディングのための既存モデルを再トレーニングすることにより,実験的に知見を確認した。
実験では、このようなスケーラブルなモデルの人間側と機械側とのトレードオフを示し、その点でより深い層を用いたトレーニングのメリットについて論じる。
関連論文リスト
- Exploring Compressed Image Representation as a Perceptual Proxy: A Study [1.0878040851638]
本稿では,解析変換をオブジェクト分類タスクと共同で訓練する,エンドツーエンドの学習画像圧縮を提案する。
本研究は、圧縮された潜在表現が、カスタマイズされたDNNベースの品質指標に匹敵する精度で人間の知覚距離判定を予測できることを確認した。
論文 参考訳(メタデータ) (2024-01-14T04:37:17Z) - Human-imperceptible, Machine-recognizable Images [76.01951148048603]
より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。
画像が暗号化され、人間に認識され、機械に認識される」という、効率的なプライバシー保護学習パラダイムを提案する。
提案手法は,機械が認識可能な情報を保存しながら,暗号化された画像が人間に認識されなくなることを保証できることを示す。
論文 参考訳(メタデータ) (2023-06-06T13:41:37Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Image coding for machines: an end-to-end learned approach [23.92748892163087]
本稿では,ニューラルネットワーク(NN)とエンドツーエンド学習を併用したマシンのための画像を提案する。
我々のNNベースのタスクは、オブジェクト検出およびインスタンス分割タスクにおいて、最先端のVersa-tile Video Coding(VVC)標準よりも優れていることを示す。
私たちの知る限りでは、これが初めて学習された機械学習画像の歪みである。
論文 参考訳(メタデータ) (2021-08-23T07:54:42Z) - Deep Multilabel CNN for Forensic Footwear Impression Descriptor
Identification [0.9786690381850356]
我々は、法医学的ユースケースにおいて、Emphdescriptorsとして知られる履物印象の特徴を分類するために、深層学習アプローチを採用する。
我々は、異なるドメインのデータに基づいて事前訓練されたニューラルネットワークに、サンプル化されたグレースケールインプレッションを供給するための技術を開発し、評価する。
論文 参考訳(メタデータ) (2021-02-09T19:39:28Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。