論文の概要: Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression
- arxiv url: http://arxiv.org/abs/2311.13846v2
- Date: Tue, 28 Nov 2023 14:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 10:03:07.283462
- Title: Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression
- Title(参考訳): 可変レート画像圧縮のためのビジュアルプロンプトチューニングによるプログレッシブラーニング
- Authors: Shiyu Qin, Yimin Zhou, Jinpeng Wang, Bin Chen, Baoyi An, Tao Dai,
Shu-Tao Xia
- Abstract要約: 本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
- 参考スコア(独自算出の注目度): 60.689646881479064
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we propose a progressive learning paradigm for
transformer-based variable-rate image compression. Our approach covers a wide
range of compression rates with the assistance of the Layer-adaptive Prompt
Module (LPM). Inspired by visual prompt tuning, we use LPM to extract prompts
for input images and hidden features at the encoder side and decoder side,
respectively, which are fed as additional information into the Swin Transformer
layer of a pre-trained transformer-based image compression model to affect the
allocation of attention region and the bits, which in turn changes the target
compression ratio of the model. To ensure the network is more lightweight, we
involves the integration of prompt networks with less convolutional layers.
Exhaustive experiments show that compared to methods based on multiple models,
which are optimized separately for different target rates, the proposed method
arrives at the same performance with 80% savings in parameter storage and 90%
savings in datasets. Meanwhile, our model outperforms all current variable
bitrate image methods in terms of rate-distortion performance and approaches
the state-of-the-art fixed bitrate image compression methods trained from
scratch.
- Abstract(参考訳): 本稿では,変圧器を用いた可変レート画像圧縮のための漸進学習パラダイムを提案する。
提案手法は,Layer-Adaptive Prompt Module (LPM) の助けを借りて,幅広い圧縮率をカバーする。
視覚的プロンプトチューニングにより,LPMを用いてエンコーダ側の入力画像とデコーダ側の隠れ特徴のプロンプトを抽出し,事前学習されたトランスフォーマーベース画像圧縮モデルのSwinトランスフォーマー層に付加情報として供給し,アテンション領域とビットの割り当てに影響を及ぼし,モデルの目標圧縮率を変化させる。
ネットワークがより軽量であることを保証するため、より畳み込みの少ないプロンプトネットワークの統合を伴います。
実験の結果,異なるターゲットレートで個別に最適化された複数のモデルに基づく手法と比較して,パラメータストレージの80%,データセットの90%の削減で,提案手法は同一性能に到達した。
一方,本モデルでは,現在の可変ビットレート画像法をレートゆらぎ性能で上回り,スクラッチからトレーニングした最先端の固定ビットレート画像圧縮手法にアプローチする。
関連論文リスト
- Bi-Level Spatial and Channel-aware Transformer for Learned Image Compression [0.0]
本稿では,特徴マップ内の周波数成分を考慮したトランスフォーマーに基づく画像圧縮手法を提案する。
本手法は,空間ベース分岐が高周波数と低周波数を独立に扱うHSCATB(Hybrid Space-Channel Attention Transformer Block)を統合した。
また、トランスフォーマーブロック内にMLGFFN(Mixed Local-Global Feed Forward Network)を導入し、多様な情報とリッチな情報の抽出を強化する。
論文 参考訳(メタデータ) (2024-08-07T15:35:25Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Dynamic Low-Rank Instance Adaptation for Universal Neural Image
Compression [33.92792778925365]
ドメイン外のデータセットで観測される速度歪みの減少に対処する低ランク適応手法を提案する。
提案手法は,多様な画像データセットにまたがる普遍性を示す。
論文 参考訳(メタデータ) (2023-08-15T12:17:46Z) - Transformer-based Variable-rate Image Compression with
Region-of-interest Control [24.794581811606445]
本稿では,変換器を用いた学習画像圧縮システムを提案する。
関心の領域機能をサポートしながら、単一のモデルで可変レート圧縮を実現することができる。
論文 参考訳(メタデータ) (2023-05-18T08:40:34Z) - High-Fidelity Variable-Rate Image Compression via Invertible Activation
Transformation [24.379052026260034]
Invertible Activation Transformation (IAT) モジュールを提案する。
IATとQLevelは、画像圧縮モデルに、画像の忠実さを良く保ちながら、細かな可変レート制御能力を与える。
提案手法は,特に複数再符号化後に,最先端の可変レート画像圧縮法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-09-12T07:14:07Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。