論文の概要: Bridging the gap between image coding for machines and humans
- arxiv url: http://arxiv.org/abs/2401.10732v1
- Date: Fri, 19 Jan 2024 14:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 15:32:42.936729
- Title: Bridging the gap between image coding for machines and humans
- Title(参考訳): 機械と人間の画像符号化のギャップを埋める
- Authors: Nam Le, Honglei Zhang, Francesco Cricri, Ramin G. Youvalari, Hamed
Rezazadegan Tavakoli, Emre Aksu, Miska M. Hannuksela, Esa Rahtu
- Abstract要約: 監視などの多くのユースケースでは、圧縮処理によって視覚的品質が劇的に劣化しないことが重要である。
ニューラルネットワーク(NN)ベースのICMコーデックの使用に関する最近の研究は、従来の手法に対して大きなコードゲインを示している。
ICMの視覚的品質を大幅に向上させるために, 対角訓練に基づく効果的なデコーダファインタニング手法を提案する。
- 参考スコア(独自算出の注目度): 20.017766644567036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image coding for machines (ICM) aims at reducing the bitrate required to
represent an image while minimizing the drop in machine vision analysis
accuracy. In many use cases, such as surveillance, it is also important that
the visual quality is not drastically deteriorated by the compression process.
Recent works on using neural network (NN) based ICM codecs have shown
significant coding gains against traditional methods; however, the decompressed
images, especially at low bitrates, often contain checkerboard artifacts. We
propose an effective decoder finetuning scheme based on adversarial training to
significantly enhance the visual quality of ICM codecs, while preserving the
machine analysis accuracy, without adding extra bitcost or parameters at the
inference phase. The results show complete removal of the checkerboard
artifacts at the negligible cost of -1.6% relative change in task performance
score. In the cases where some amount of artifacts is tolerable, such as when
machine consumption is the primary target, this technique can enhance both
pixel-fidelity and feature-fidelity scores without losing task performance.
- Abstract(参考訳): image coding for machines (icm) は、画像表現に必要なビットレートを削減し、マシンビジョン分析の精度を最小化することを目的としている。
監視などの多くのユースケースでは、圧縮処理によって視覚的品質が著しく劣化しないことも重要である。
ニューラルネットワーク(NN)ベースのICMコーデックを用いた最近の研究は、従来の手法に対して大きなコードゲインを示しているが、圧縮された画像、特に低ビットレートでは、チェッカーボードのアーティファクトがしばしば含まれている。
本稿では,ICMコーデックの視覚的品質を著しく向上する上で,推論フェーズに余分なビットコストやパラメータを加えることなく,機械解析精度を保ちながら,効果的なデコーダファインタニング手法を提案する。
その結果,チェッカーボードのアーティファクトは,タスクパフォーマンススコアの相対的変化が-1.6%の無視コストで完全に取り除かれた。
機械消費が主なターゲットである場合など、ある程度のアーティファクトが許容できる場合、この技術はタスク性能を損なうことなく画素忠実度と特徴忠実度の両方を高めることができる。
関連論文リスト
- Rate-Distortion-Cognition Controllable Versatile Neural Image Compression [47.72668401825835]
速度歪み認識制御可能な多目的画像圧縮法を提案する。
本手法は, 良好なICM性能とフレキシブルレート・ディストーション・コグニテーション制御を実現する。
論文 参考訳(メタデータ) (2024-07-16T13:17:51Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Analysis of the Effect of Low-Overhead Lossy Image Compression on the
Performance of Visual Crowd Counting for Smart City Applications [78.55896581882595]
画像圧縮技術は画像の品質を低下させ、精度を低下させる。
本稿では,低オーバヘッド損失画像圧縮法の適用が視覚的群集カウントの精度に与える影響を解析する。
論文 参考訳(メタデータ) (2022-07-20T19:20:03Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Image coding for machines: an end-to-end learned approach [23.92748892163087]
本稿では,ニューラルネットワーク(NN)とエンドツーエンド学習を併用したマシンのための画像を提案する。
我々のNNベースのタスクは、オブジェクト検出およびインスタンス分割タスクにおいて、最先端のVersa-tile Video Coding(VVC)標準よりも優れていることを示す。
私たちの知る限りでは、これが初めて学習された機械学習画像の歪みである。
論文 参考訳(メタデータ) (2021-08-23T07:54:42Z) - End-to-end optimized image compression for machines, a study [3.0448872422956437]
画像とビデオのコンテンツのシェアは、人間が見るのではなく、機械によって分析される。
従来のコーディングツールは、もともと人間の知覚のために設計されたマシンタスクを専門化するのが難しい。
ニューラルネットワークベースのコーデックは、任意の畳み込みニューラルネットワーク(CNN)ベースのタスクモデルと、エンドツーエンドで共同でトレーニングすることができる。
論文 参考訳(メタデータ) (2020-11-10T20:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。