論文の概要: DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation
- arxiv url: http://arxiv.org/abs/2410.18666v2
- Date: Tue, 29 Oct 2024 05:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:40:48.028271
- Title: DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation
- Title(参考訳): DreamClear:プライバシセーフなデータセットのキュレーションによる高容量リアルタイムイメージ復元
- Authors: Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang,
- Abstract要約: 我々は、革新的なデータキュレーションパイプラインであるGenIRと、最先端の拡散変換器(DiT)ベースの画像復元モデルであるDreamClearの2つの戦略を提案する。
我々の先駆的な貢献であるGenIRは、既存のデータセットの制限を克服するデュアルプロンプト学習パイプラインです。
DreamClear は DiT ベースの画像復元モデルである。テキスト・ツー・イメージ(T2I)拡散モデルの生成先行と,マルチモーダル大言語モデル(MLLM)の堅牢な知覚能力を利用して復元を実現する。
- 参考スコア(独自算出の注目度): 46.22939360256696
- License:
- Abstract: Image restoration (IR) in real-world scenarios presents significant challenges due to the lack of high-capacity models and comprehensive datasets. To tackle these issues, we present a dual strategy: GenIR, an innovative data curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer (DiT)-based image restoration model. GenIR, our pioneering contribution, is a dual-prompt learning pipeline that overcomes the limitations of existing datasets, which typically comprise only a few thousand images and thus offer limited generalizability for larger models. GenIR streamlines the process into three stages: image-text pair construction, dual-prompt based fine-tuning, and data generation & filtering. This approach circumvents the laborious data crawling process, ensuring copyright compliance and providing a cost-effective, privacy-safe solution for IR dataset construction. The result is a large-scale dataset of one million high-quality images. Our second contribution, DreamClear, is a DiT-based image restoration model. It utilizes the generative priors of text-to-image (T2I) diffusion models and the robust perceptual capabilities of multi-modal large language models (MLLMs) to achieve photorealistic restoration. To boost the model's adaptability to diverse real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM). It employs token-wise degradation priors to dynamically integrate various restoration experts, thereby expanding the range of degradations the model can address. Our exhaustive experiments confirm DreamClear's superior performance, underlining the efficacy of our dual strategy for real-world image restoration. Code and pre-trained models are available at: https://github.com/shallowdream204/DreamClear.
- Abstract(参考訳): 実世界のシナリオにおける画像復元(IR)は、高容量モデルと包括的なデータセットが欠如しているため、重大な課題を示す。
これらの問題を解決するために、革新的なデータキュレーションパイプラインであるGenIRと、最先端の拡散変換器(DiT)ベースの画像復元モデルであるDreamClearの2つの戦略を提案する。
我々の先駆的なコントリビューションであるGenIRは、既存のデータセットの制限を克服する、双発学習パイプラインです。
GenIRは、イメージテキストペアの構築、デュアルプロンプトベースの微調整、データ生成とフィルタリングの3段階にプロセスを合理化する。
このアプローチは、面倒なデータクローリングのプロセスを回避し、著作権の遵守を保証し、IRデータセット構築のための費用対効果の高いプライバシセーフなソリューションを提供する。
その結果、100万の高品質な画像の大規模なデータセットが得られた。
2番目のコントリビューションであるDreamClearは、DiTベースのイメージ復元モデルです。
テキスト・トゥ・イメージ(T2I)拡散モデルの生成先行と、マルチモーダル大言語モデル(MLLM)の堅牢な知覚能力を利用して、光現実的復元を実現する。
種々の実世界の劣化に対するモデルの適応性を高めるために, 適応変調器(MoAM)の混合を導入する。
さまざまな復元の専門家を動的に統合するために、トークン単位での分解を先取りし、モデルが対処できる分解範囲を広げる。
我々の徹底的な実験はドリームクラーの優れた性能を確認し、現実のイメージ復元における2つの戦略の有効性を裏付けるものである。
コードと事前トレーニングされたモデルは、https://github.com/shallowdream204/DreamClear.comで入手できる。
関連論文リスト
- Realistic Extreme Image Rescaling via Generative Latent Space Learning [51.85790402171696]
極端画像再スケーリングのためのLatent Space Based Image Rescaling (LSBIR) という新しいフレームワークを提案する。
LSBIRは、訓練済みのテキスト-画像拡散モデルによって学習された強力な自然画像の先行を効果的に活用し、リアルなHR画像を生成する。
第1段階では、擬似非可逆エンコーダデコーダは、HR画像の潜在特徴とターゲットサイズのLR画像との双方向マッピングをモデル化する。
第2段階では、第1段階からの再構成された特徴を事前訓練された拡散モデルにより洗練し、より忠実で視覚的に喜ぶ詳細を生成する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - Training-Free Large Model Priors for Multiple-in-One Image Restoration [24.230376300759573]
大型モデル駆動画像復元フレームワーク(LMDIR)
我々のアーキテクチャは、グローバルな劣化知識を注入するクエリベースのプロンプトエンコーダ、分解対応トランスフォーマーブロックで構成されている。
この設計は、自動修復とユーザガイド修復の両方をサポートしながら、様々な劣化に対処するためのシングルステージトレーニングパラダイムを促進する。
論文 参考訳(メタデータ) (2024-07-18T05:40:32Z) - Gradient Inversion of Federated Diffusion Models [4.1355611383748005]
拡散モデルは、非常に高解像度の画像データを生成する欠陥生成モデルになりつつある。
本稿では,勾配反転攻撃のプライバシーリスクについて検討する。
本稿では,未知データの最適化をコーディネートする三重最適化GIDM+を提案する。
論文 参考訳(メタデータ) (2024-05-30T18:00:03Z) - Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models [14.25759541950917]
この研究は、能動的視覚言語モデルと合成分解パイプラインを活用して、野生(ワイルドIR)における画像復元を学習する。
我々の基底拡散モデルは画像復元SDE(IR-SDE)である。
論文 参考訳(メタデータ) (2024-04-15T12:34:21Z) - Exposure Bracketing is All You Need for Unifying Image Restoration and Enhancement Tasks [50.822601495422916]
本稿では,露光ブラケット写真を利用して画像復元と拡張作業を統合することを提案する。
実世界のペアの収集が困難であるため,まず合成ペアデータを用いてモデルを事前学習する手法を提案する。
特に,時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:14:35Z) - Multi-task Image Restoration Guided By Robust DINO Features [88.74005987908443]
DINOv2から抽出したロバストな特徴を利用したマルチタスク画像復元手法であるmboxtextbfDINO-IRを提案する。
まず,DINOV2の浅い特徴を動的に融合するPSF (Pixel-semantic fusion) モジュールを提案する。
これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
論文 参考訳(メタデータ) (2023-12-04T06:59:55Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - Spectral Graphormer: Spectral Graph-based Transformer for Egocentric
Two-Hand Reconstruction using Multi-View Color Images [33.70056950818641]
マルチビューRGB画像から2つの高忠実度ハンドを再構成するトランスフォーマーベースの新しいフレームワークを提案する。
本研究では, 実データへの合成学習モデルの一般化を実証し, 現実的な両手再構成を実現できることを示す。
論文 参考訳(メタデータ) (2023-08-21T20:07:02Z) - Refusion: Enabling Large-Size Realistic Image Restoration with
Latent-Space Diffusion Models [9.245782611878752]
ネットワークアーキテクチャ、ノイズレベル、デノイングステップ、トレーニング画像サイズ、知覚/スケジューリングスコアなど、様々な面で拡散モデルを強化する。
また、復号処理のために元の入力からの高分解能情報を保存しつつ、低分解能潜時空間での拡散を行うU-Netベースの潜時拡散モデルを提案する。
これらの修正により、現実世界の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換など、様々な画像復元タスクに拡散モデルを適用することができる。
論文 参考訳(メタデータ) (2023-04-17T14:06:49Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。