論文の概要: UCIP: A Universal Framework for Compressed Image Super-Resolution using Dynamic Prompt
- arxiv url: http://arxiv.org/abs/2407.13108v1
- Date: Thu, 18 Jul 2024 02:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:03:47.688350
- Title: UCIP: A Universal Framework for Compressed Image Super-Resolution using Dynamic Prompt
- Title(参考訳): UCIP:動的プロンプトを用いた圧縮画像超解法のためのユニバーサルフレームワーク
- Authors: Xin Li, Bingchen Li, Yeying Jin, Cuiling Lan, Hanxin Zhu, Yulin Ren, Zhibo Chen,
- Abstract要約: 圧縮画像スーパーレゾリューション(CSR)は、圧縮された画像を同時に超解き、圧縮によるハイブリッド歪みに対処することを目的としている。
そこで我々はUCIPと呼ばれる,動的プロンプト学習を用いた初の汎用CSRフレームワークを提案する。
UCIPの普遍的CSRタスクにおける一貫した性能と優れた性能を示す実験を行った。
- 参考スコア(独自算出の注目度): 28.67147892614428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compressed Image Super-resolution (CSR) aims to simultaneously super-resolve the compressed images and tackle the challenging hybrid distortions caused by compression. However, existing works on CSR usually focuses on a single compression codec, i.e., JPEG, ignoring the diverse traditional or learning-based codecs in the practical application, e.g., HEVC, VVC, HIFIC, etc. In this work, we propose the first universal CSR framework, dubbed UCIP, with dynamic prompt learning, intending to jointly support the CSR distortions of any compression codecs/modes. Particularly, an efficient dynamic prompt strategy is proposed to mine the content/spatial-aware task-adaptive contextual information for the universal CSR task, using only a small amount of prompts with spatial size 1x1. To simplify contextual information mining, we introduce the novel MLP-like framework backbone for our UCIP by adapting the Active Token Mixer (ATM) to CSR tasks for the first time, where the global information modeling is only taken in horizontal and vertical directions with offset prediction. We also build an all-in-one benchmark dataset for the CSR task by collecting the datasets with the popular 6 diverse traditional and learning-based codecs, including JPEG, HEVC, VVC, HIFIC, etc., resulting in 23 common degradations. Extensive experiments have shown the consistent and excellent performance of our UCIP on universal CSR tasks. The project can be found in https://lixinustc.github.io/UCIP.github.io
- Abstract(参考訳): 圧縮画像スーパーレゾリューション(CSR)は、圧縮された画像を同時に超解き、圧縮によるハイブリッド歪みに対処することを目的としている。
しかし、CSRに関する既存の研究は通常、JPEG(英語版)という単一の圧縮コーデックに焦点を当てており、例えば、HEVC、VVC、HIFICなど、様々な伝統または学習ベースのコーデックを無視している。
本研究では,任意の圧縮コーデック/モデックのCSR歪みを協調的に支援することを目的として,動的プロンプト学習を備えたUCIPと呼ばれる最初のユニバーサルCSRフレームワークを提案する。
特に、空間サイズ1x1の少量のプロンプトのみを用いて、CSRタスクのコンテンツ/空間対応タスク適応コンテキスト情報をマイニングする効率的な動的プロンプト戦略を提案する。
文脈情報マイニングを簡略化するために, アクティブトークンミキサー(ATM)をCSRタスクに適用することで, UCIPの新たなMLPライクなフレームワークバックボーンを導入する。
また、JPEG、HEVC、VVC、HIFICなど、一般的な6つの伝統的な学習ベースのコーデックでデータセットを収集することで、CSRタスクのためのオールインワンのベンチマークデータセットを構築しました。
普遍的CSRタスクにおけるUCIPの一貫性と優れた性能を示す大規模な実験を行った。
このプロジェクトはhttps://lixinustc.github.io/UCIP.github.ioで見ることができる。
関連論文リスト
- HyCoT: A Transformer-Based Autoencoder for Hyperspectral Image Compression [6.0163252984457145]
ハイパースペクトル圧縮変換器 (Hyperspectral Compression Transformer, HyCoT) は、画素ワイドHSI圧縮のためのトランスフォーマーベースのオートエンコーダである。
HySpecNet-11kデータセットの実験結果は、HyCoTがPSNRの1dBを超える圧縮比で芸術の状態を超越していることを示している。
論文 参考訳(メタデータ) (2024-08-16T12:27:46Z) - Exploiting Inter-Image Similarity Prior for Low-Bitrate Remote Sensing Image Compression [10.427300958330816]
生成された離散コードブックを用いたコードブックベースのRS画像圧縮(Code-RSIC)手法を提案する。
このコードは、知覚品質の観点から、最先端の伝統と学習に基づく画像圧縮アルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-17T03:33:16Z) - UniCompress: Enhancing Multi-Data Medical Image Compression with Knowledge Distillation [59.3877309501938]
Inlicit Neural Representation (INR) ネットワークは、その柔軟な圧縮比のため、顕著な汎用性を示している。
周波数領域情報を含むコードブックをINRネットワークへの事前入力として導入する。
これにより、INRの表現力が向上し、異なる画像ブロックに対して特異な条件付けが提供される。
論文 参考訳(メタデータ) (2024-05-27T05:52:13Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Rapid-INR: Storage Efficient CPU-free DNN Training Using Implicit Neural Representation [7.539498729072623]
Implicit Neural Representation (INR) は、複雑な形状や物体を、その形状や表面構造を明確に定義せずに表現するための革新的なアプローチである。
従来の研究では、画像圧縮のINRとしてニューラルネットワークを使用することの有効性が実証されており、JPEGのような従来の手法に匹敵する性能を示している。
本稿では、画像のエンコーディングと圧縮にINRを利用する新しいアプローチであるRapid-INRを紹介し、コンピュータビジョンタスクにおけるニューラルネットワークトレーニングを高速化する。
論文 参考訳(メタデータ) (2023-06-29T05:49:07Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - Split Hierarchical Variational Compression [21.474095984110622]
可変オートエンコーダ(VAE)は、画像データセットの圧縮を行う上で大きな成功を収めている。
SHVCは、ピクセルごとの自己回帰と完全に分解された確率モデルとの一般化を可能にする、効率的な自己回帰的サブピクセル畳み込みを導入している。
論文 参考訳(メタデータ) (2022-04-05T09:13:38Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文 参考訳(メタデータ) (2020-12-31T06:26:56Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。