Fugu-MT 論文翻訳(概要): Image Compression for Machine and Human Vision with Spatial-Frequency Adaptation

論文の概要: Image Compression for Machine and Human Vision with Spatial-Frequency Adaptation

arxiv url: http://arxiv.org/abs/2407.09853v1
Date: Sat, 13 Jul 2024 11:22:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 20:27:46.334247
Title: Image Compression for Machine and Human Vision with Spatial-Frequency Adaptation
Title（参考訳）: 空間周波数適応による機械と人間の視覚の画像圧縮
Authors: Han Li, Shaohui Li, Shuangrui Ding, Wenrui Dai, Maida Cao, Chenglin Li, Junni Zou, Hongkai Xiong,
Abstract要約: 近年,機械と人間の視覚のための画像圧縮 (ICMH) が注目されている。既存のICMH手法は、タスク固有のネットワークの設計が重く、高いトレーニングとストレージオーバーヘッドによって制限されている。我々は、ICMHのための新しい軽量なアダプタベースのチューニングフレームワーク、Adapt-ICMHを開発した。
参考スコア（独自算出の注目度）: 61.22401987355781
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Image compression for machine and human vision (ICMH) has gained increasing attention in recent years. Existing ICMH methods are limited by high training and storage overheads due to heavy design of task-specific networks. To address this issue, in this paper, we develop a novel lightweight adapter-based tuning framework for ICMH, named Adapt-ICMH, that better balances task performance and bitrates with reduced overheads. We propose a spatial-frequency modulation adapter (SFMA) that simultaneously eliminates non-semantic redundancy with a spatial modulation adapter, and enhances task-relevant frequency components and suppresses task-irrelevant frequency components with a frequency modulation adapter. The proposed adapter is plug-and-play and compatible with almost all existing learned image compression models without compromising the performance of pre-trained models. Experiments demonstrate that Adapt-ICMH consistently outperforms existing ICMH frameworks on various machine vision tasks with fewer fine-tuned parameters and reduced computational complexity. Code will be released at https://github.com/qingshi9974/ECCV2024-AdpatICMH .
Abstract（参考訳）: 近年,機械と人間の視覚のための画像圧縮 (ICMH) が注目されている。既存のICMH手法は、タスク固有のネットワークの設計が重く、高いトレーニングとストレージオーバーヘッドによって制限されている。そこで本研究では,タスク性能とビットレートのバランスを向上し,オーバーヘッドを低減したICMHのための軽量なアダプタベースのチューニングフレームワークであるAdapt-ICMHを開発する。本研究では、空間変調アダプタによる非意味的冗長性を同時に排除し、タスク関連周波数成分の強化と周波数変調アダプタによるタスク関連周波数成分の抑制を行う空間周波数変調アダプタ(SFMA)を提案する。提案アダプタはプラグアンドプレイであり、既存の学習画像圧縮モデルと互換性があり、事前学習されたモデルの性能を損なうことはない。実験により、Adapt-ICMHは様々なマシンビジョンタスクにおける既存のIMMHフレームワークを、微調整されたパラメータが少なく、計算の複雑さを低減して一貫して上回っていることが示された。コードはhttps://github.com/qingshi9974/ECCV2024-AdpatICMHでリリースされる。

関連論文リスト

Frequency Dynamic Convolution for Dense Image Prediction [34.915070244005854]
本稿では、FDConv( Frequency Dynamic Convolution)を導入し、Fourierドメインの固定パラメータ予算を学習することで制限を緩和する。 FDConvは、この予算を不整合フーリエ指数を持つ周波数ベースのグループに分割し、パラメータコストを増大させることなく周波数幅の重みを構築することができる。我々は、ResNet-50に適用した場合、FDConvは、+3.6Mパラメータを適度に増加させ、優れた性能を達成することを実証した。
論文参考訳（メタデータ） (2025-03-24T15:32:06Z)
CMamba: Learned Image Compression with State Space Models [31.10785880342252]
本稿では,コンボリューションと状態空間モデル(SSM)をベースとした画像圧縮フレームワークを提案する。具体的には、CMambaはContent-Adaptive SSM(CA-SSM)モジュールとContext-Aware Entropy(CAE)モジュールの2つの重要なコンポーネントを紹介している。実験の結果,CMambaは高い速度歪み性能が得られることがわかった。
論文参考訳（メタデータ） (2025-02-07T15:07:04Z)
FreqMixFormerV2: Lightweight Frequency-aware Mixed Transformer for Human Skeleton Action Recognition [9.963966059349731]
FreqMixForemrV2は、微妙で差別的なアクションを特定するために、周波数対応のMixed Transformer(FreqMixFormer)上に構築されている。提案手法は, 精度と効率のバランスが良く, パラメータの60%しか持たない最先端の手法より優れている。
論文参考訳（メタデータ） (2024-12-29T23:52:40Z)
Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文参考訳（メタデータ） (2024-10-08T11:07:55Z)
CAD: Memory Efficient Convolutional Adapter for Segment Anything [3.760646312664378]
イメージセグメンテーションの基礎モデルであるSAM(Seegment Anything)は,様々な分野で積極的に研究されている。アダプタベースの微調整アプローチではパラメータ効率と大幅なパフォーマンス向上が報告されている。本稿では,メモリ効率の高い並列畳み込みアダプタアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-09-24T09:02:23Z)
Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文参考訳（メタデータ） (2024-08-01T15:14:10Z)
Urban Waterlogging Detection: A Challenging Benchmark and Large-Small Model Co-Adapter [10.001964627074704]
都市防水は公共の安全とインフラに大きなリスクをもたらす。近年の進歩では、監視カメラ画像とディープラーニングによる検出が採用されているが、データ不足と環境条件の悪化に苦戦している。我々は,現実の応用を進めるために,多様な有害な条件下で,挑戦的な都市水質評価ベンチマーク(UW-Bench)を構築した。
論文参考訳（メタデータ） (2024-07-11T01:03:02Z)
Real-Time Compressed Sensing for Joint Hyperspectral Image Transmission and Restoration for CubeSat [9.981107535103687]
本稿では,軽量で比較的少数のトレーニングサンプルを必要とするリアルタイム圧縮センシングネットワークを提案する。 RTCSネットワークは、必要なトレーニングサンプルを削減し、整数8ベースのエンコーダに簡単に実装できる単純化されたアーキテクチャを備えている。我々のエンコーダは、ストリップライクなHSIデータ伝送に整数8互換の線形プロジェクションを使用し、リアルタイム圧縮センシングを確実にする。
論文参考訳（メタデータ） (2024-04-24T10:03:37Z)
Revisiting the Parameter Efficiency of Adapters from the Perspective of Precision Redundancy [17.203320079872952]
コンピュータビジョンにおける現在の最先端の結果は、部分的に微調整された大規模な事前学習された視覚モデルに依存している。モデルサイズが指数関数的に増大するにつれて、従来のフル微調整はストレージと送信オーバーヘッドを増大させる。本稿では,タスク固有の細調整ネットワークを格納するために必要な最小限のサイズに到達し,アダプタをさらに効率的にする方法を検討する。
論文参考訳（メタデータ） (2023-07-31T17:22:17Z)
Spatially-Adaptive Feature Modulation for Efficient Image Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。提案法は最先端のSR法よりも3倍程度小さい。
論文参考訳（メタデータ） (2023-02-27T14:19:31Z)
A Simple Adaptive Unfolding Network for Hyperspectral Image Reconstruction [33.53825801739728]
ネットワーク設計をシンプルにするために,シンプルで効率的でスケーラブルな展開ネットワークSAUNetを提案する。 SAUNetは、継続的改善を伴う非自明な13ステージにスケールすることができる。我々はCAVEとKAIST HSI再構成ベンチマークに新しい記録を設定した。
論文参考訳（メタデータ） (2023-01-24T18:28:21Z)
AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文参考訳（メタデータ） (2022-05-24T23:41:22Z)
Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文参考訳（メタデータ） (2021-03-15T12:54:26Z)
AdapterDrop: On the Efficiency of Adapters in Transformers [53.845909603631945]
大規模に事前訓練されたトランスフォーマーモデルは、微調整に計算コストがかかり、推論に時間がかかり、大きなストレージ要求がある。最近のアプローチでは、より小さなモデルをトレーニングし、モデルサイズを動的に削減し、軽量アダプタをトレーニングすることで、これらの欠点に対処している。
論文参考訳（メタデータ） (2020-10-22T17:49:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。