論文の概要: Improving Image Coding for Machines through Optimizing Encoder via Auxiliary Loss
- arxiv url: http://arxiv.org/abs/2402.08267v2
- Date: Sat, 28 Sep 2024 14:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:22.603249
- Title: Improving Image Coding for Machines through Optimizing Encoder via Auxiliary Loss
- Title(参考訳): 補助損失によるエンコーダ最適化による機械画像符号化の改善
- Authors: Kei Iino, Shunsuke Akamatsu, Hiroshi Watanabe, Shohei Enomoto, Akira Sakamoto, Takeharu Eda,
- Abstract要約: 機械用画像符号化(ICM)は、人間の視覚ではなく認識モデルを用いて、機械分析のための画像を圧縮することを目的としている。
そこで本研究では,エンコーダに補助損失を付与し,その認識能力と速度歪み性能を向上させるための新しいICMモデルのトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 2.9687381456164004
- License:
- Abstract: Image coding for machines (ICM) aims to compress images for machine analysis using recognition models rather than human vision. Hence, in ICM, it is important for the encoder to recognize and compress the information necessary for the machine recognition task. There are two main approaches in learned ICM; optimization of the compression model based on task loss, and Region of Interest (ROI) based bit allocation. These approaches provide the encoder with the recognition capability. However, optimization with task loss becomes difficult when the recognition model is deep, and ROI-based methods often involve extra overhead during evaluation. In this study, we propose a novel training method for learned ICM models that applies auxiliary loss to the encoder to improve its recognition capability and rate-distortion performance. Our method achieves Bjontegaard Delta rate improvements of 27.7% and 20.3% in object detection and semantic segmentation tasks, compared to the conventional training method. \c{opyright} 2024 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works.
- Abstract(参考訳): 機械用画像符号化(ICM)は、人間の視覚ではなく認識モデルを用いて、機械分析のための画像を圧縮することを目的としている。
したがって、ICMでは、エンコーダが認識タスクに必要な情報を認識し、圧縮することが重要である。
学習したIMMには、タスク損失に基づく圧縮モデルの最適化と、ROI(Rerea of Interest)に基づくビット割り当ての2つの主要なアプローチがある。
これらのアプローチは、認識機能を備えたエンコーダを提供する。
しかし、認識モデルが深い場合にはタスク損失の最適化が難しくなり、ROIベースの手法は評価中に余分なオーバーヘッドを伴うことが多い。
本研究では,エンコーダに補助的損失を付与し,認識能力と速度歪み性能を向上させる学習型ICMモデルの新たなトレーニング手法を提案する。
本手法は,従来の訓練法と比較して,オブジェクト検出とセマンティックセグメンテーションタスクにおいて,Bjontegaard Deltaレートを27.7%,20.3%向上させる。
2024年、IEEE。
この素材の個人使用は許可されている。
IEEEからの許可は、広告又は宣伝目的のためにこの資料を再印刷または再出版し、新しい集団作品を作成し、サーバまたはリストの再販売または再配布し、この作品の著作権のあるコンポーネントを他の作品で再利用することを含む、現在又は将来のメディアのあらゆる用途で取得されなければならない。
関連論文リスト
- UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Exploring Distortion Prior with Latent Diffusion Models for Remote Sensing Image Compression [9.742764207747697]
遅延拡散モデルに基づくリモートセンシング画像圧縮法(LDM-RSIC)を提案する。
第1段階では、自己エンコーダは、高品質な入力画像から予め学習する。
第2段階では、既存の学習ベース画像圧縮アルゴリズムの復号化画像に条件付LDMにより前者が生成される。
論文 参考訳(メタデータ) (2024-06-06T11:13:44Z) - Bridging the gap between image coding for machines and humans [20.017766644567036]
監視などの多くのユースケースでは、圧縮処理によって視覚的品質が劇的に劣化しないことが重要である。
ニューラルネットワーク(NN)ベースのICMコーデックの使用に関する最近の研究は、従来の手法に対して大きなコードゲインを示している。
ICMの視覚的品質を大幅に向上させるために, 対角訓練に基づく効果的なデコーダファインタニング手法を提案する。
論文 参考訳(メタデータ) (2024-01-19T14:49:56Z) - Image Coding for Machines with Object Region Learning [0.0]
対象領域を学習する画像圧縮モデルを提案する。
私たちのモデルはROIマップのような入力として追加情報を必要としておらず、タスクロスを使用しません。
論文 参考訳(メタデータ) (2023-08-27T01:54:03Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Contrastive Masked Autoencoders are Stronger Vision Learners [114.16568579208216]
Contrastive Masked Autoencoders (CMAE)は、より包括的で有能な視覚表現を学習するための、自己指導型事前学習手法である。
CMAEは、画像分類、セマンティックセグメンテーション、オブジェクト検出の高度に競争力のあるベンチマークにおいて、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-27T14:04:22Z) - Recognition-Aware Learned Image Compression [0.5801044612920815]
本稿では,タスク固有の損失と並行して,速度歪み損失を最適化する認識認識型学習圧縮手法を提案する。
提案手法は,BPGなどの従来の手法と比較して,同等値での認識精度が26%向上する。
論文 参考訳(メタデータ) (2022-02-01T03:33:51Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。