論文の概要: MoE-DiffIR: Task-customized Diffusion Priors for Universal Compressed Image Restoration
- arxiv url: http://arxiv.org/abs/2407.10833v1
- Date: Mon, 15 Jul 2024 15:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 14:30:11.762402
- Title: MoE-DiffIR: Task-customized Diffusion Priors for Universal Compressed Image Restoration
- Title(参考訳): MoE-DiffIR:Universal Compressed Image Restorationのためのタスクカスタマイズ拡散プリミティブ
- Authors: Yulin Ren, Xin Li, Bingchen Li, Xingrui Wang, Mengxi Guo, Shijie Zhao, Li Zhang, Zhibo Chen,
- Abstract要約: MoE-DiffIR (MoE-DiffIR) は、タスクカストマイズド拡散前処理を用いた革新的ユニバーサル圧縮画像復元法である。
MoE-DiffIRは強力なMix of-experts(MoE)プロンプトモジュールを開発する。
基本プロンプトのフレキシブルな割り当てを可能にするために,分解対応ルーティング機構を提案する。
- 参考スコア(独自算出の注目度): 16.482022642533448
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present MoE-DiffIR, an innovative universal compressed image restoration (CIR) method with task-customized diffusion priors. This intends to handle two pivotal challenges in the existing CIR methods: (i) lacking adaptability and universality for different image codecs, e.g., JPEG and WebP; (ii) poor texture generation capability, particularly at low bitrates. Specifically, our MoE-DiffIR develops the powerful mixture-of-experts (MoE) prompt module, where some basic prompts cooperate to excavate the task-customized diffusion priors from Stable Diffusion (SD) for each compression task. Moreover, the degradation-aware routing mechanism is proposed to enable the flexible assignment of basic prompts. To activate and reuse the cross-modality generation prior of SD, we design the visual-to-text adapter for MoE-DiffIR, which aims to adapt the embedding of low-quality images from the visual domain to the textual domain as the textual guidance for SD, enabling more consistent and reasonable texture generation. We also construct one comprehensive benchmark dataset for universal CIR, covering 21 types of degradations from 7 popular traditional and learned codecs. Extensive experiments on universal CIR have demonstrated the excellent robustness and texture restoration capability of our proposed MoE-DiffIR. The project can be found at https://renyulin-f.github.io/MoE-DiffIR.github.io/.
- Abstract(参考訳): 本稿では,タスクカストマイズド拡散前処理を用いた革新的ユニバーサル圧縮画像復元法であるMoE-DiffIRを提案する。
これは、既存のCIRメソッドにおける2つの重要な課題を扱うことを目的としている。
i) 異なる画像コーデック,例えばJPEG,WebPに対する適応性と普遍性に欠ける。
(二)テクスチャ生成能力の低さ、特に低ビットレート。
特に,我々のMoE-DiffIRは,各圧縮タスクの安定拡散(SD)からタスクカストマイズした拡散先行を探索するために,いくつかの基本的プロンプトを協調して探索する,強力なミックス・オブ・エキスパート(MoE)プロンプトモジュールを開発した。
さらに、基本的なプロンプトの柔軟な割り当てを可能にするために、分解対応ルーティング機構を提案する。
SDに先立つモダリティ生成を活性化・再利用するために,視覚領域からテキスト領域への低品質画像の埋め込みをSDのテキストガイダンスとして適用することを目的としたMoE-DiffIRのビジュアル・トゥ・テキスト・アダプタを設計し,より一貫性と合理的なテクスチャ生成を実現する。
また、一般的なCIRのための包括的なベンチマークデータセットを構築し、7つの一般的な伝統および学習されたコーデックから21種類の分解をカバーした。
広汎なCIR実験により,提案したMoE-DiffIRの優れたロバスト性およびテクスチャ復元能力を示した。
このプロジェクトはhttps://renyulin-f.github.io/MoE-DiffIR.github.io/で見ることができる。
関連論文リスト
- Adversarial Diffusion Compression for Real-World Image Super-Resolution [16.496532580598007]
現実世界の超解像は、複雑なプロセスによって劣化した低解像度の入力から高解像度の画像を再構成することを目的としている。
OSEDiffやS3Diffのような一段階拡散ネットワークはこの問題を緩和するが、それでも高い計算コストがかかる。
本稿では,一段階拡散ネットワークOSEDiffを流線形拡散GANモデルに蒸留することにより,新しいリアルISR法AdcSRを提案する。
論文 参考訳(メタデータ) (2024-11-20T15:13:36Z) - UCIP: A Universal Framework for Compressed Image Super-Resolution using Dynamic Prompt [28.67147892614428]
圧縮画像スーパーレゾリューション(CSR)は、圧縮された画像を同時に超解き、圧縮によるハイブリッド歪みに対処することを目的としている。
そこで我々はUCIPと呼ばれる,動的プロンプト学習を用いた初の汎用CSRフレームワークを提案する。
UCIPの普遍的CSRタスクにおける一貫した性能と優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-07-18T02:36:39Z) - PromptCIR: Blind Compressed Image Restoration with Prompt Learning [19.06110655450585]
本稿では,PromptCIRと呼ばれる,プロンプト学習に基づく圧縮画像復元ネットワークを提案する。
PromptCIRは圧縮情報を暗黙的にエンコードするプロンプトを利用する。
プロンプトCIRは、ブラインド圧縮画像強調トラックのNTIRE 2024チャレンジで1位を獲得した。
論文 参考訳(メタデータ) (2024-04-26T14:20:31Z) - Unified-Width Adaptive Dynamic Network for All-In-One Image Restoration [50.81374327480445]
本稿では, 複雑な画像劣化を基本劣化の観点で表現できる, という新しい概念を提案する。
We propose the Unified-Width Adaptive Dynamic Network (U-WADN) which consist of two pivotal components: a Width Adaptive Backbone (WAB) and a Width Selector (WS)。
提案したU-WADNは、最大32.3%のFLOPを同時に削減し、約15.7%のリアルタイム加速を実現している。
論文 参考訳(メタデータ) (2024-01-24T04:25:12Z) - Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration [58.11518043688793]
MPerceiverは、オールインワン画像復元のための適応性、一般化性、忠実性を高める新しいアプローチである。
MPerceiverは、オールインワンIRの9つのタスクでトレーニングされ、ほとんどのタスクで最先端のタスク固有のメソッドより優れています。
論文 参考訳(メタデータ) (2023-12-05T17:47:11Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - Lightweight Improved Residual Network for Efficient Inverse Tone Mapping [30.049931061503276]
インターネット上のほとんどのメディア画像は8ビット標準ダイナミックレンジ(SDR)フォーマットのままである。
逆トーンマッピング(ITM)は、豊富なメディア画像の潜在能力を最大限に活用するために重要である。
我々は,効率的なIMMを実現するために,一般的な残差ブロックのパワーを増強し,軽量な改良された残差ネットワーク(IRNet)を提案する。
論文 参考訳(メタデータ) (2023-07-08T15:43:49Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Deep Burst Super-Resolution [165.90445859851448]
バースト超解像タスクのための新しいアーキテクチャを提案する。
我々のネットワークは複数のノイズRAW画像を入力として取り出し、出力として分解された超解像RGB画像を生成する。
実世界のデータのトレーニングと評価を可能にするため,BurstSRデータセットも導入する。
論文 参考訳(メタデータ) (2021-01-26T18:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。