論文の概要: DNN-Compressed Domain Visual Recognition with Feature Adaptation
- arxiv url: http://arxiv.org/abs/2305.08000v2
- Date: Wed, 26 Jul 2023 09:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 15:46:26.233778
- Title: DNN-Compressed Domain Visual Recognition with Feature Adaptation
- Title(参考訳): 特徴適応を用いたDNN圧縮領域認識
- Authors: Yingpeng Deng and Lina J. Karam
- Abstract要約: 学習に基づく画像圧縮は、最先端の変換ベースのコーデックと競合する性能を発揮することが示されている。
これはJPEG-AIのような新しい学習ベースのビジュアル圧縮標準の開発を動機づけた。
本稿では,圧縮領域表現を用いて,圧縮領域内で直接視覚処理やコンピュータビジョンタスクを行う学習ベース圧縮方式について述べる。
- 参考スコア(独自算出の注目度): 19.79803434998116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based image compression was shown to achieve a competitive
performance with state-of-the-art transform-based codecs. This motivated the
development of new learning-based visual compression standards such as JPEG-AI.
Of particular interest to these emerging standards is the development of
learning-based image compression systems targeting both humans and machines.
This paper is concerned with learning-based compression schemes whose
compressed-domain representations can be utilized to perform visual processing
and computer vision tasks directly in the compressed domain. In our work, we
adopt a learning-based compressed-domain classification framework for
performing visual recognition using the compressed-domain latent representation
at varying bit-rates. We propose a novel feature adaptation module integrating
a lightweight attention model to adaptively emphasize and enhance the key
features within the extracted channel-wise information. Also, we design an
adaptation training strategy to utilize the pretrained pixel-domain weights.
For comparison, in addition to the performance results that are obtained using
our proposed latent-based compressed-domain method, we also present performance
results using compressed but fully decoded images in the pixel domain as well
as original uncompressed images. The obtained performance results show that our
proposed compressed-domain classification model can distinctly outperform the
existing compressed-domain classification models, and that it can also yield
similar accuracy results with a much higher computational efficiency as
compared to the pixel-domain models that are trained using fully decoded
images.
- Abstract(参考訳): 学習に基づく画像圧縮は、最先端の変換ベースのコーデックと競合する性能を発揮する。
これはJPEG-AIのような新しい学習ベースのビジュアル圧縮標準の開発を動機づけた。
これらの新しい標準に対する特に関心は、人間と機械の両方をターゲットにした学習ベースの画像圧縮システムの開発である。
本稿では,圧縮領域表現を用いて,圧縮領域内で直接視覚処理やコンピュータビジョンタスクを行う学習ベース圧縮方式について述べる。
本研究では,ビットレートの異なる圧縮ドメイン潜在表現を用いて視覚認識を行うための,学習ベースの圧縮ドメイン分類フレームワークを採用する。
本稿では,抽出されたチャネル情報の中で重要な特徴を適応的に強調・強化するために,軽量な注意モデルを統合する新しい特徴適応モジュールを提案する。
また,事前訓練された画素領域重みを利用するための適応学習戦略を設計する。
比較のために,提案手法を用いて得られた性能評価結果に加えて,画素領域内の圧縮・完全復号画像とオリジナル未圧縮画像を用いた性能評価結果も提示する。
その結果,提案した圧縮領域分類モデルは,既存の圧縮領域分類モデルよりも明らかに優れており,完全復号化画像を用いて訓練された画素領域モデルと比較して,計算効率が向上することを示す。
関連論文リスト
- Toward Scalable Image Feature Compression: A Content-Adaptive and Diffusion-Based Approach [44.03561901593423]
本稿では,スケーラブルな画像圧縮のためのコンテンツ適応拡散モデルを提案する。
提案手法は拡散過程を通じて微細なテクスチャを符号化し,知覚品質を向上する。
画像再構成および下流マシンビジョンタスクにおいて,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-10-08T15:48:34Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Learned Image Compression for Machine Perception [17.40776913809306]
人間の知覚と機械知覚の両方に適した圧縮フォーマットを生成するフレームワークを開発する。
コアビジョンタスクの圧縮と性能を同時に最適化する表現が学習可能であることを示す。
論文 参考訳(メタデータ) (2021-11-03T14:39:09Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - Learning-based Compression for Material and Texture Recognition [23.668803886355683]
本稿では,圧縮領域表現を用いて,圧縮領域内で直接視覚処理やコンピュータビジョンタスクを行う学習ベース圧縮方式について述べる。
学習ベースのJPEG-AIフレームワークを採用し、バリイングビットレートで圧縮ドメインの潜入表現を使用して材料およびテクスチャ認識を行います。
また, 圧縮領域分類は, より小さな縮小複雑度分類モデルを用いてTop-1とTop-5の精度で競合性能が得られることを示した。
論文 参考訳(メタデータ) (2021-04-16T23:16:26Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。