論文の概要: End-to-end optimized image compression for multiple machine tasks
- arxiv url: http://arxiv.org/abs/2103.04178v1
- Date: Sat, 6 Mar 2021 19:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 15:54:42.396907
- Title: End-to-end optimized image compression for multiple machine tasks
- Title(参考訳): 複数のマシンタスクに対するエンドツーエンド最適化画像圧縮
- Authors: Lahiru D. Chamain, Fabien Racap\'e, Jean B\'egaint, Akshay Pushparaja
and Simon Feltman
- Abstract要約: 我々は,圧縮コンテンツの直接変換を可能にするために,デコーダとタスクアルゴリズムの間に挿入される「コネクタ」を導入する。
画像分類とオブジェクトセグメンテーションの両方において高いレート精度向上を実現し,提案手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 3.8323580808203785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An increasing share of captured images and videos are transmitted for storage
and remote analysis by computer vision algorithms, rather than to be viewed by
humans. Contrary to traditional standard codecs with engineered tools, neural
network based codecs can be trained end-to-end to optimally compress images
with respect to a target rate and any given differentiable performance metric.
Although it is possible to train such compression tools to achieve better
rate-accuracy performance for a particular computer vision task, it could be
practical and relevant to re-use the compressed bit-stream for multiple machine
tasks. For this purpose, we introduce 'Connectors' that are inserted between
the decoder and the task algorithms to enable a direct transformation of the
compressed content, which was previously optimized for a specific task, to
multiple other machine tasks. We demonstrate the effectiveness of the proposed
method by achieving significant rate-accuracy performance improvement for both
image classification and object segmentation, using the same bit-stream,
originally optimized for object detection.
- Abstract(参考訳): キャプチャされた画像とビデオのシェアは、人間が見るのではなく、コンピュータビジョンアルゴリズムによるストレージとリモート分析のために送信される。
従来の標準コーデックとは異なり、ニューラルネットワークベースのコーデックは、ターゲットレートと任意の識別可能なパフォーマンスメトリックに関して画像を最適に圧縮するために、エンドツーエンドでトレーニングすることができます。
このような圧縮ツールを訓練して、特定のコンピュータビジョンタスクのレート精度を向上させることは可能だが、複数のマシンタスクで圧縮ビットストリームを再利用することは実用的かつ関連性がある。
この目的のために、デコーダとタスクアルゴリズムの間に挿入される「コネクタ」を導入し、以前に特定のタスク用に最適化された圧縮コンテンツが、他の複数のマシンタスクに直接変換できるようにします。
オブジェクト検出に最適化された同じビットストリームを用いて,画像分類とオブジェクトセグメンテーションの両方において高いレート精度向上を実現し,提案手法の有効性を実証する。
関連論文リスト
- Bridging the gap between image coding for machines and humans [20.017766644567036]
監視などの多くのユースケースでは、圧縮処理によって視覚的品質が劇的に劣化しないことが重要である。
ニューラルネットワーク(NN)ベースのICMコーデックの使用に関する最近の研究は、従来の手法に対して大きなコードゲインを示している。
ICMの視覚的品質を大幅に向上させるために, 対角訓練に基づく効果的なデコーダファインタニング手法を提案する。
論文 参考訳(メタデータ) (2024-01-19T14:49:56Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Semantic Segmentation in Learned Compressed Domain [21.53261818914534]
セグメント化タスクを改善するために,圧縮された領域に基づく手法を提案する。
2つの異なるモジュールを探索、解析し、圧縮された表現をセグメンテーションネットワークの特徴として変換するのに役立つ。
論文 参考訳(メタデータ) (2022-09-03T07:59:34Z) - Analysis of the Effect of Low-Overhead Lossy Image Compression on the
Performance of Visual Crowd Counting for Smart City Applications [78.55896581882595]
画像圧縮技術は画像の品質を低下させ、精度を低下させる。
本稿では,低オーバヘッド損失画像圧縮法の適用が視覚的群集カウントの精度に与える影響を解析する。
論文 参考訳(メタデータ) (2022-07-20T19:20:03Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z) - End-to-end optimized image compression for machines, a study [3.0448872422956437]
画像とビデオのコンテンツのシェアは、人間が見るのではなく、機械によって分析される。
従来のコーディングツールは、もともと人間の知覚のために設計されたマシンタスクを専門化するのが難しい。
ニューラルネットワークベースのコーデックは、任意の畳み込みニューラルネットワーク(CNN)ベースのタスクモデルと、エンドツーエンドで共同でトレーニングすることができる。
論文 参考訳(メタデータ) (2020-11-10T20:10:43Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。