論文の概要: Image Compression for Machine and Human Vision with Spatial-Frequency Adaptation
- arxiv url: http://arxiv.org/abs/2407.09853v1
- Date: Sat, 13 Jul 2024 11:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:27:46.334247
- Title: Image Compression for Machine and Human Vision with Spatial-Frequency Adaptation
- Title(参考訳): 空間周波数適応による機械と人間の視覚の画像圧縮
- Authors: Han Li, Shaohui Li, Shuangrui Ding, Wenrui Dai, Maida Cao, Chenglin Li, Junni Zou, Hongkai Xiong,
- Abstract要約: 近年,機械と人間の視覚のための画像圧縮 (ICMH) が注目されている。
既存のICMH手法は、タスク固有のネットワークの設計が重く、高いトレーニングとストレージオーバーヘッドによって制限されている。
我々は、ICMHのための新しい軽量なアダプタベースのチューニングフレームワーク、Adapt-ICMHを開発した。
- 参考スコア(独自算出の注目度): 61.22401987355781
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image compression for machine and human vision (ICMH) has gained increasing attention in recent years. Existing ICMH methods are limited by high training and storage overheads due to heavy design of task-specific networks. To address this issue, in this paper, we develop a novel lightweight adapter-based tuning framework for ICMH, named Adapt-ICMH, that better balances task performance and bitrates with reduced overheads. We propose a spatial-frequency modulation adapter (SFMA) that simultaneously eliminates non-semantic redundancy with a spatial modulation adapter, and enhances task-relevant frequency components and suppresses task-irrelevant frequency components with a frequency modulation adapter. The proposed adapter is plug-and-play and compatible with almost all existing learned image compression models without compromising the performance of pre-trained models. Experiments demonstrate that Adapt-ICMH consistently outperforms existing ICMH frameworks on various machine vision tasks with fewer fine-tuned parameters and reduced computational complexity. Code will be released at https://github.com/qingshi9974/ECCV2024-AdpatICMH .
- Abstract(参考訳): 近年,機械と人間の視覚のための画像圧縮 (ICMH) が注目されている。
既存のICMH手法は、タスク固有のネットワークの設計が重く、高いトレーニングとストレージオーバーヘッドによって制限されている。
そこで本研究では,タスク性能とビットレートのバランスを向上し,オーバーヘッドを低減したICMHのための軽量なアダプタベースのチューニングフレームワークであるAdapt-ICMHを開発する。
本研究では、空間変調アダプタによる非意味的冗長性を同時に排除し、タスク関連周波数成分の強化と周波数変調アダプタによるタスク関連周波数成分の抑制を行う空間周波数変調アダプタ(SFMA)を提案する。
提案アダプタはプラグアンドプレイであり、既存の学習画像圧縮モデルと互換性があり、事前学習されたモデルの性能を損なうことはない。
実験により、Adapt-ICMHは様々なマシンビジョンタスクにおける既存のIMMHフレームワークを、微調整されたパラメータが少なく、計算の複雑さを低減して一貫して上回っていることが示された。
コードはhttps://github.com/qingshi9974/ECCV2024-AdpatICMHでリリースされる。
関連論文リスト
- Urban Waterlogging Detection: A Challenging Benchmark and Large-Small Model Co-Adapter [10.001964627074704]
都市防水は公共の安全とインフラに大きなリスクをもたらす。
近年の進歩では、監視カメラ画像とディープラーニングによる検出が採用されているが、データ不足と環境条件の悪化に苦戦している。
我々は,現実の応用を進めるために,多様な有害な条件下で,挑戦的な都市水質評価ベンチマーク(UW-Bench)を構築した。
論文 参考訳(メタデータ) (2024-07-11T01:03:02Z) - Real-Time Compressed Sensing for Joint Hyperspectral Image Transmission and Restoration for CubeSat [9.981107535103687]
本稿では,軽量で比較的少数のトレーニングサンプルを必要とするリアルタイム圧縮センシングネットワークを提案する。
RTCSネットワークは、必要なトレーニングサンプルを削減し、整数8ベースのエンコーダに簡単に実装できる単純化されたアーキテクチャを備えている。
我々のエンコーダは、ストリップライクなHSIデータ伝送に整数8互換の線形プロジェクションを使用し、リアルタイム圧縮センシングを確実にする。
論文 参考訳(メタデータ) (2024-04-24T10:03:37Z) - Revisiting the Parameter Efficiency of Adapters from the Perspective of
Precision Redundancy [17.203320079872952]
コンピュータビジョンにおける現在の最先端の結果は、部分的に微調整された大規模な事前学習された視覚モデルに依存している。
モデルサイズが指数関数的に増大するにつれて、従来のフル微調整はストレージと送信オーバーヘッドを増大させる。
本稿では,タスク固有の細調整ネットワークを格納するために必要な最小限のサイズに到達し,アダプタをさらに効率的にする方法を検討する。
論文 参考訳(メタデータ) (2023-07-31T17:22:17Z) - MF-NeRF: Memory Efficient NeRF with Mixed-Feature Hash Table [62.164549651134465]
MF-NeRFは,Mixed-Featureハッシュテーブルを用いてメモリ効率を向上し,再構成品質を維持しながらトレーニング時間を短縮するメモリ効率の高いNeRFフレームワークである。
最新技術であるInstant-NGP、TensoRF、DVGOによる実験は、MF-NeRFが同じGPUハードウェア上で、同様のあるいはそれ以上のリコンストラクション品質で最速のトレーニング時間を達成できることを示唆している。
論文 参考訳(メタデータ) (2023-04-25T05:44:50Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - A Simple Adaptive Unfolding Network for Hyperspectral Image
Reconstruction [33.53825801739728]
ネットワーク設計をシンプルにするために,シンプルで効率的でスケーラブルな展開ネットワークSAUNetを提案する。
SAUNetは、継続的改善を伴う非自明な13ステージにスケールすることができる。
我々はCAVEとKAIST HSI再構成ベンチマークに新しい記録を設定した。
論文 参考訳(メタデータ) (2023-01-24T18:28:21Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - AdapterDrop: On the Efficiency of Adapters in Transformers [53.845909603631945]
大規模に事前訓練されたトランスフォーマーモデルは、微調整に計算コストがかかり、推論に時間がかかり、大きなストレージ要求がある。
最近のアプローチでは、より小さなモデルをトレーニングし、モデルサイズを動的に削減し、軽量アダプタをトレーニングすることで、これらの欠点に対処している。
論文 参考訳(メタデータ) (2020-10-22T17:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。