論文の概要: Improving Image Coding for Machines through Optimizing Encoder via Auxiliary Loss
- arxiv url: http://arxiv.org/abs/2402.08267v2
- Date: Sat, 28 Sep 2024 14:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:22.603249
- Title: Improving Image Coding for Machines through Optimizing Encoder via Auxiliary Loss
- Title(参考訳): 補助損失によるエンコーダ最適化による機械画像符号化の改善
- Authors: Kei Iino, Shunsuke Akamatsu, Hiroshi Watanabe, Shohei Enomoto, Akira Sakamoto, Takeharu Eda,
- Abstract要約: 機械用画像符号化(ICM)は、人間の視覚ではなく認識モデルを用いて、機械分析のための画像を圧縮することを目的としている。
そこで本研究では,エンコーダに補助損失を付与し,その認識能力と速度歪み性能を向上させるための新しいICMモデルのトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 2.9687381456164004
- License:
- Abstract: Image coding for machines (ICM) aims to compress images for machine analysis using recognition models rather than human vision. Hence, in ICM, it is important for the encoder to recognize and compress the information necessary for the machine recognition task. There are two main approaches in learned ICM; optimization of the compression model based on task loss, and Region of Interest (ROI) based bit allocation. These approaches provide the encoder with the recognition capability. However, optimization with task loss becomes difficult when the recognition model is deep, and ROI-based methods often involve extra overhead during evaluation. In this study, we propose a novel training method for learned ICM models that applies auxiliary loss to the encoder to improve its recognition capability and rate-distortion performance. Our method achieves Bjontegaard Delta rate improvements of 27.7% and 20.3% in object detection and semantic segmentation tasks, compared to the conventional training method. \c{opyright} 2024 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works.
- Abstract(参考訳): 機械用画像符号化(ICM)は、人間の視覚ではなく認識モデルを用いて、機械分析のための画像を圧縮することを目的としている。
したがって、ICMでは、エンコーダが認識タスクに必要な情報を認識し、圧縮することが重要である。
学習したIMMには、タスク損失に基づく圧縮モデルの最適化と、ROI(Rerea of Interest)に基づくビット割り当ての2つの主要なアプローチがある。
これらのアプローチは、認識機能を備えたエンコーダを提供する。
しかし、認識モデルが深い場合にはタスク損失の最適化が難しくなり、ROIベースの手法は評価中に余分なオーバーヘッドを伴うことが多い。
本研究では,エンコーダに補助的損失を付与し,認識能力と速度歪み性能を向上させる学習型ICMモデルの新たなトレーニング手法を提案する。
本手法は,従来の訓練法と比較して,オブジェクト検出とセマンティックセグメンテーションタスクにおいて,Bjontegaard Deltaレートを27.7%,20.3%向上させる。
2024年、IEEE。
この素材の個人使用は許可されている。
IEEEからの許可は、広告又は宣伝目的のためにこの資料を再印刷または再出版し、新しい集団作品を作成し、サーバまたはリストの再販売または再配布し、この作品の著作権のあるコンポーネントを他の作品で再利用することを含む、現在又は将来のメディアのあらゆる用途で取得されなければならない。
関連論文リスト
- Rate-Distortion-Cognition Controllable Versatile Neural Image Compression [47.72668401825835]
速度歪み認識制御可能な多目的画像圧縮法を提案する。
本手法は, 良好なICM性能とフレキシブルレート・ディストーション・コグニテーション制御を実現する。
論文 参考訳(メタデータ) (2024-07-16T13:17:51Z) - LDM-RSIC: Exploring Distortion Prior with Latent Diffusion Models for Remote Sensing Image Compression [8.80655789773014]
遅延拡散モデルに基づくリモートセンシング画像圧縮法(LDM-RSIC)を提案する。
第1段階では、自己エンコーダは、高品質な入力画像から予め学習する。
第2段階では、既存の学習ベース画像圧縮アルゴリズムの復号化画像に条件付LDMにより前者が生成される。
論文 参考訳(メタデータ) (2024-06-06T11:13:44Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural
Image Compression [62.888755394395716]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - Bridging the gap between image coding for machines and humans [20.017766644567036]
監視などの多くのユースケースでは、圧縮処理によって視覚的品質が劇的に劣化しないことが重要である。
ニューラルネットワーク(NN)ベースのICMコーデックの使用に関する最近の研究は、従来の手法に対して大きなコードゲインを示している。
ICMの視覚的品質を大幅に向上させるために, 対角訓練に基づく効果的なデコーダファインタニング手法を提案する。
論文 参考訳(メタデータ) (2024-01-19T14:49:56Z) - Image Coding for Machines with Object Region Learning [0.0]
対象領域を学習する画像圧縮モデルを提案する。
私たちのモデルはROIマップのような入力として追加情報を必要としておらず、タスクロスを使用しません。
論文 参考訳(メタデータ) (2023-08-27T01:54:03Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Recognition-Aware Learned Image Compression [0.5801044612920815]
本稿では,タスク固有の損失と並行して,速度歪み損失を最適化する認識認識型学習圧縮手法を提案する。
提案手法は,BPGなどの従来の手法と比較して,同等値での認識精度が26%向上する。
論文 参考訳(メタデータ) (2022-02-01T03:33:51Z) - High Quality Segmentation for Ultra High-resolution Images [72.97958314291648]
超高分解能セグメンテーション精錬作業のための連続精細モデルを提案する。
提案手法は画像分割精細化において高速かつ効果的である。
論文 参考訳(メタデータ) (2021-11-29T11:53:06Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。