論文の概要: PromptCIR: Blind Compressed Image Restoration with Prompt Learning
- arxiv url: http://arxiv.org/abs/2404.17433v1
- Date: Fri, 26 Apr 2024 14:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:55:05.119495
- Title: PromptCIR: Blind Compressed Image Restoration with Prompt Learning
- Title(参考訳): PromptCIR: Prompt Learningによるブラインド圧縮画像復元
- Authors: Bingchen Li, Xin Li, Yiting Lu, Ruoyu Feng, Mengxi Guo, Shijie Zhao, Li Zhang, Zhibo Chen,
- Abstract要約: 本稿では,PromptCIRと呼ばれる,プロンプト学習に基づく圧縮画像復元ネットワークを提案する。
PromptCIRは圧縮情報を暗黙的にエンコードするプロンプトを利用する。
プロンプトCIRは、ブラインド圧縮画像強調トラックのNTIRE 2024チャレンジで1位を獲得した。
- 参考スコア(独自算出の注目度): 19.06110655450585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Blind Compressed Image Restoration (CIR) has garnered significant attention due to its practical applications. It aims to mitigate compression artifacts caused by unknown quality factors, particularly with JPEG codecs. Existing works on blind CIR often seek assistance from a quality factor prediction network to facilitate their network to restore compressed images. However, the predicted numerical quality factor lacks spatial information, preventing network adaptability toward image contents. Recent studies in prompt-learning-based image restoration have showcased the potential of prompts to generalize across varied degradation types and degrees. This motivated us to design a prompt-learning-based compressed image restoration network, dubbed PromptCIR, which can effectively restore images from various compress levels. Specifically, PromptCIR exploits prompts to encode compression information implicitly, where prompts directly interact with soft weights generated from image features, thus providing dynamic content-aware and distortion-aware guidance for the restoration process. The light-weight prompts enable our method to adapt to different compression levels, while introducing minimal parameter overhead. Overall, PromptCIR leverages the powerful transformer-based backbone with the dynamic prompt module to proficiently handle blind CIR tasks, winning first place in the NTIRE 2024 challenge of blind compressed image enhancement track. Extensive experiments have validated the effectiveness of our proposed PromptCIR. The code is available at https://github.com/lbc12345/PromptCIR-NTIRE24.
- Abstract(参考訳): Blind Compressed Image Restoration (CIR) はその実用性から注目されている。
これは、未知の品質要因、特にJPEGコーデックによる圧縮アーティファクトの緩和を目的としている。
ブラインドCIRの既存の作業は、圧縮画像の復元を容易にするために、品質因子予測ネットワークからの助けを求めることが多い。
しかし、予測された数値品質係数は空間情報に欠けており、画像コンテンツに対するネットワーク適応性を妨げている。
近年, 画像修復の進歩により, 様々な劣化タイプや度合いにまたがって, 一般化の可能性が示された。
これにより、様々な圧縮レベルから画像を効果的に復元できるPromptCIRと呼ばれる、素早い学習に基づく圧縮画像復元ネットワークを設計する動機となった。
具体的には、PromptCIRは圧縮情報を暗黙的にエンコードするプロンプトを利用して、画像の特徴から生じるソフトウェイトと直接対話する。
軽量なプロンプトにより,パラメータのオーバーヘッドを最小限に抑えながら,異なる圧縮レベルに適応することができる。
全体としてPromptCIRは、ダイナミックプロンプトモジュールを備えた強力なトランスフォーマーベースのバックボーンを活用してブラインドCIRタスクを巧みに処理し、ブラインド圧縮画像強調トラックのNTIRE 2024チャレンジで1位を獲得した。
提案した PromptCIR の有効性を検証した。
コードはhttps://github.com/lbc12345/PromptCIR-NTIRE24で公開されている。
関連論文リスト
- UniCompress: Enhancing Multi-Data Medical Image Compression with Knowledge Distillation [59.3877309501938]
Inlicit Neural Representation (INR) ネットワークは、その柔軟な圧縮比のため、顕著な汎用性を示している。
周波数領域情報を含むコードブックをINRネットワークへの事前入力として導入する。
これにより、INRの表現力が向上し、異なる画像ブロックに対して特異な条件付けが提供される。
論文 参考訳(メタデータ) (2024-05-27T05:52:13Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - Prompt-ICM: A Unified Framework towards Image Coding for Machines with
Task-driven Prompts [27.119835579428816]
機械用画像符号化(ICM)は、人間の知覚ではなく、下流のAI分析をサポートするために画像を圧縮することを目的としている。
近年の大規模事前学習モデルから下流タスクへの移行に触発されて,新しいICMフレームワークであるPrompt-ICMを探索する。
提案手法は,情報セレクタによって予測される重要マップとして実装された圧縮プロンプトと,下流の異なるタスクに応じて圧縮中に異なるコンテンツ重み付けビット割り当てを実現するための2つのコア設計からなる。
論文 参考訳(メタデータ) (2023-05-04T06:21:10Z) - Swin2SR: SwinV2 Transformer for Compressed Image Super-Resolution and
Restoration [71.6879432974126]
本稿では,画像超解像のためのSwinIRの改良を目的とした小説Swin Transformer V2について検討する。
JPEG圧縮アーティファクトの除去,画像超解像(古典的および軽量),圧縮画像超解像の3つの代表的な課題について実験を行った。
実験の結果,Swin2SRはSwinIRのトレーニング収束と性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-09-22T23:25:08Z) - Convolutional Neural Network (CNN) to reduce construction loss in JPEG
compression caused by Discrete Fourier Transform (DFT) [0.0]
畳み込みニューラルネットワーク(CNN)は他の多くのディープニューラルネットワークよりも注目されている。
本研究では,オートエンコーダを用いた効率的な画像圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-08-26T12:46:16Z) - Crowd Counting on Heavily Compressed Images with Curriculum Pre-Training [90.76576712433595]
ディープニューラルネットワークによって処理された画像に損失圧縮を適用することで、大幅な精度低下につながる可能性がある。
カリキュラム学習のパラダイムに着想を得て,圧縮画像の群集カウントのためのカリキュラム事前学習(CPT)と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-15T08:43:21Z) - Soft Compression for Lossless Image Coding [17.714164324169037]
画像に関する新しい概念である圧縮可能なインジケータ関数を提案する。
ソフト圧縮を施すことにより、同じ種類の画像の送受信に必要となる帯域幅とストレージスペースを大幅に削減することが期待される。
論文 参考訳(メタデータ) (2020-12-11T10:59:47Z) - Early Exit or Not: Resource-Efficient Blind Quality Enhancement for
Compressed Images [54.40852143927333]
ロスシー画像圧縮は、通信帯域を節約するために広範に行われ、望ましくない圧縮アーティファクトをもたらす。
圧縮画像に対する資源効率の高いブラインド品質向上手法(RBQE)を提案する。
提案手法は, 評価された画像の品質に応じて, 自動的にエンハンスメントを終了するか, 継続するかを決定することができる。
論文 参考訳(メタデータ) (2020-06-30T07:38:47Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。