論文の概要: Image Compression for Machine and Human Vision with Spatial-Frequency Adaptation
- arxiv url: http://arxiv.org/abs/2407.09853v1
- Date: Sat, 13 Jul 2024 11:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:27:46.334247
- Title: Image Compression for Machine and Human Vision with Spatial-Frequency Adaptation
- Title(参考訳): 空間周波数適応による機械と人間の視覚の画像圧縮
- Authors: Han Li, Shaohui Li, Shuangrui Ding, Wenrui Dai, Maida Cao, Chenglin Li, Junni Zou, Hongkai Xiong,
- Abstract要約: 近年,機械と人間の視覚のための画像圧縮 (ICMH) が注目されている。
既存のICMH手法は、タスク固有のネットワークの設計が重く、高いトレーニングとストレージオーバーヘッドによって制限されている。
我々は、ICMHのための新しい軽量なアダプタベースのチューニングフレームワーク、Adapt-ICMHを開発した。
- 参考スコア(独自算出の注目度): 61.22401987355781
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image compression for machine and human vision (ICMH) has gained increasing attention in recent years. Existing ICMH methods are limited by high training and storage overheads due to heavy design of task-specific networks. To address this issue, in this paper, we develop a novel lightweight adapter-based tuning framework for ICMH, named Adapt-ICMH, that better balances task performance and bitrates with reduced overheads. We propose a spatial-frequency modulation adapter (SFMA) that simultaneously eliminates non-semantic redundancy with a spatial modulation adapter, and enhances task-relevant frequency components and suppresses task-irrelevant frequency components with a frequency modulation adapter. The proposed adapter is plug-and-play and compatible with almost all existing learned image compression models without compromising the performance of pre-trained models. Experiments demonstrate that Adapt-ICMH consistently outperforms existing ICMH frameworks on various machine vision tasks with fewer fine-tuned parameters and reduced computational complexity. Code will be released at https://github.com/qingshi9974/ECCV2024-AdpatICMH .
- Abstract(参考訳): 近年,機械と人間の視覚のための画像圧縮 (ICMH) が注目されている。
既存のICMH手法は、タスク固有のネットワークの設計が重く、高いトレーニングとストレージオーバーヘッドによって制限されている。
そこで本研究では,タスク性能とビットレートのバランスを向上し,オーバーヘッドを低減したICMHのための軽量なアダプタベースのチューニングフレームワークであるAdapt-ICMHを開発する。
本研究では、空間変調アダプタによる非意味的冗長性を同時に排除し、タスク関連周波数成分の強化と周波数変調アダプタによるタスク関連周波数成分の抑制を行う空間周波数変調アダプタ(SFMA)を提案する。
提案アダプタはプラグアンドプレイであり、既存の学習画像圧縮モデルと互換性があり、事前学習されたモデルの性能を損なうことはない。
実験により、Adapt-ICMHは様々なマシンビジョンタスクにおける既存のIMMHフレームワークを、微調整されたパラメータが少なく、計算の複雑さを低減して一貫して上回っていることが示された。
コードはhttps://github.com/qingshi9974/ECCV2024-AdpatICMHでリリースされる。
関連論文リスト
- CMamba: Learned Image Compression with State Space Models [31.10785880342252]
本稿では,コンボリューションと状態空間モデル(SSM)をベースとした画像圧縮フレームワークを提案する。
具体的には、CMambaはContent-Adaptive SSM(CA-SSM)モジュールとContext-Aware Entropy(CAE)モジュールの2つの重要なコンポーネントを紹介している。
実験の結果,CMambaは高い速度歪み性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-02-07T15:07:04Z) - FreqMixFormerV2: Lightweight Frequency-aware Mixed Transformer for Human Skeleton Action Recognition [9.963966059349731]
FreqMixForemrV2は、微妙で差別的なアクションを特定するために、周波数対応のMixed Transformer(FreqMixFormer)上に構築されている。
提案手法は, 精度と効率のバランスが良く, パラメータの60%しか持たない最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-12-29T23:52:40Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Revisiting the Parameter Efficiency of Adapters from the Perspective of
Precision Redundancy [17.203320079872952]
コンピュータビジョンにおける現在の最先端の結果は、部分的に微調整された大規模な事前学習された視覚モデルに依存している。
モデルサイズが指数関数的に増大するにつれて、従来のフル微調整はストレージと送信オーバーヘッドを増大させる。
本稿では,タスク固有の細調整ネットワークを格納するために必要な最小限のサイズに到達し,アダプタをさらに効率的にする方法を検討する。
論文 参考訳(メタデータ) (2023-07-31T17:22:17Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - A Simple Adaptive Unfolding Network for Hyperspectral Image
Reconstruction [33.53825801739728]
ネットワーク設計をシンプルにするために,シンプルで効率的でスケーラブルな展開ネットワークSAUNetを提案する。
SAUNetは、継続的改善を伴う非自明な13ステージにスケールすることができる。
我々はCAVEとKAIST HSI再構成ベンチマークに新しい記録を設定した。
論文 参考訳(メタデータ) (2023-01-24T18:28:21Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。