Fugu-MT 論文翻訳(概要): DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

論文の概要: DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

arxiv url: http://arxiv.org/abs/2410.18666v1
Date: Thu, 24 Oct 2024 11:57:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.890118
Title: DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation
Title（参考訳）: DreamClear:プライバシセーフなデータセットのキュレーションによる高容量リアルタイムイメージ復元
Authors: Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang,
Abstract要約: 我々は、革新的なデータキュレーションパイプラインであるGenIRと、最先端の拡散変換器(DiT)ベースの画像復元モデルであるDreamClearの2つの戦略を提案する。我々の先駆的な貢献であるGenIRは、既存のデータセットの制限を克服するデュアルプロンプト学習パイプラインです。 DreamClear は DiT ベースの画像復元モデルである。テキスト・ツー・イメージ(T2I)拡散モデルの生成先行と,マルチモーダル大言語モデル(MLLM)の堅牢な知覚能力を利用して復元を実現する。
参考スコア（独自算出の注目度）: 46.22939360256696
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image restoration (IR) in real-world scenarios presents significant challenges due to the lack of high-capacity models and comprehensive datasets. To tackle these issues, we present a dual strategy: GenIR, an innovative data curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer (DiT)-based image restoration model. GenIR, our pioneering contribution, is a dual-prompt learning pipeline that overcomes the limitations of existing datasets, which typically comprise only a few thousand images and thus offer limited generalizability for larger models. GenIR streamlines the process into three stages: image-text pair construction, dual-prompt based fine-tuning, and data generation & filtering. This approach circumvents the laborious data crawling process, ensuring copyright compliance and providing a cost-effective, privacy-safe solution for IR dataset construction. The result is a large-scale dataset of one million high-quality images. Our second contribution, DreamClear, is a DiT-based image restoration model. It utilizes the generative priors of text-to-image (T2I) diffusion models and the robust perceptual capabilities of multi-modal large language models (MLLMs) to achieve photorealistic restoration. To boost the model's adaptability to diverse real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM). It employs token-wise degradation priors to dynamically integrate various restoration experts, thereby expanding the range of degradations the model can address. Our exhaustive experiments confirm DreamClear's superior performance, underlining the efficacy of our dual strategy for real-world image restoration. Code and pre-trained models will be available at: https://github.com/shallowdream204/DreamClear.
Abstract（参考訳）: 実世界のシナリオにおける画像復元(IR)は、高容量モデルと包括的なデータセットが欠如しているため、重大な課題を示す。これらの問題を解決するために、革新的なデータキュレーションパイプラインであるGenIRと、最先端の拡散変換器(DiT)ベースの画像復元モデルであるDreamClearの2つの戦略を提案する。我々の先駆的なコントリビューションであるGenIRは、既存のデータセットの制限を克服する、双発学習パイプラインです。 GenIRは、イメージテキストペアの構築、デュアルプロンプトベースの微調整、データ生成とフィルタリングの3段階にプロセスを合理化する。このアプローチは、面倒なデータクローリングのプロセスを回避し、著作権の遵守を保証し、IRデータセット構築のための費用対効果の高いプライバシセーフなソリューションを提供する。その結果、100万の高品質な画像の大規模なデータセットが得られた。 2番目のコントリビューションであるDreamClearは、DiTベースのイメージ復元モデルです。テキスト・トゥ・イメージ(T2I)拡散モデルの生成先行と、マルチモーダル大言語モデル(MLLM)の堅牢な知覚能力を利用して、光現実的復元を実現する。種々の実世界の劣化に対するモデルの適応性を高めるために, 適応変調器(MoAM)の混合を導入する。さまざまな復元の専門家を動的に統合するために、トークン単位での分解を先取りし、モデルが対処できる分解範囲を広げる。我々の徹底的な実験はドリームクラーの優れた性能を確認し、現実のイメージ復元における2つの戦略の有効性を裏付けるものである。コードおよび事前トレーニングされたモデルは、https://github.com/shallowdream204/DreamClear.comで利用可能になる。

関連論文リスト

DPMambaIR:All-in-One Image Restoration via Degradation-Aware Prompt State Space Model [36.979833523678614]
オールインワン画像復元は、複数の画像劣化問題に対処することを目的としている。既存のアプローチは、画像復元を導くために、分解特異的モデルや粗粒度劣化プロンプトに依存している。我々は,新しいオールインワン画像復元フレームワークであるDPMambaIRを提案する。
論文参考訳（メタデータ） (2025-04-24T16:46:32Z)
Acquire and then Adapt: Squeezing out Text-to-Image Model for Image Restoration [25.65952375846516]
我々は、よく訓練された大きなT2Iモデル(すなわち、Flux)が、現実世界の分布に合わせて様々な高品質な画像を生成することができることを発見した。また、Diffusion Transformer (DiT) ベースのT2Iモデルを制御するために、圧縮・励起層を持つ新しい軽量アダプタ (FluxIR) も慎重に設計されている。
論文参考訳（メタデータ） (2025-04-21T15:05:22Z)
Seedream 3.0 Technical Report [62.85849652170507]
Seedream 3.0は、高性能な中国語と英語のバイリンガル画像生成基盤モデルである。 Seedream 2.0の既存の課題に対処するために、いくつかの技術的改善を開発しています。 Seedream 3.0はネイティブな高解像度の出力(最大2K)を提供し、高画質の画像を生成する。
論文参考訳（メタデータ） (2025-04-15T16:19:07Z)
Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文参考訳（メタデータ） (2025-01-31T09:53:47Z)
FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文参考訳（メタデータ） (2024-12-02T12:08:40Z)
Mixed Degradation Image Restoration via Local Dynamic Optimization and Conditional Embedding [67.57487747508179]
マルチインワン画像復元 (IR) は, 一つのモデルで全ての種類の劣化画像復元を処理し, 大幅な進歩を遂げている。本稿では,単一と混合の分解で画像を効果的に復元できる新しいマルチインワンIRモデルを提案する。
論文参考訳（メタデータ） (2024-11-25T09:26:34Z)
Training-Free Large Model Priors for Multiple-in-One Image Restoration [24.230376300759573]
大型モデル駆動画像復元フレームワーク(LMDIR) 我々のアーキテクチャは、グローバルな劣化知識を注入するクエリベースのプロンプトエンコーダ、分解対応トランスフォーマーブロックで構成されている。この設計は、自動修復とユーザガイド修復の両方をサポートしながら、様々な劣化に対処するためのシングルステージトレーニングパラダイムを促進する。
論文参考訳（メタデータ） (2024-07-18T05:40:32Z)
Gradient Inversion of Federated Diffusion Models [4.1355611383748005]
拡散モデルは、非常に高解像度の画像データを生成する欠陥生成モデルになりつつある。本稿では,勾配反転攻撃のプライバシーリスクについて検討する。本稿では,未知データの最適化をコーディネートする三重最適化GIDM+を提案する。
論文参考訳（メタデータ） (2024-05-30T18:00:03Z)
Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models [14.25759541950917]
この研究は、能動的視覚言語モデルと合成分解パイプラインを活用して、野生(ワイルドIR)における画像復元を学習する。我々の基底拡散モデルは画像復元SDE(IR-SDE)である。
論文参考訳（メタデータ） (2024-04-15T12:34:21Z)
Exposure Bracketing is All You Need for Unifying Image Restoration and Enhancement Tasks [50.822601495422916]
本稿では,露光ブラケット写真を利用して画像復元と拡張作業を統合することを提案する。実世界のペアの収集が困難であるため,まず合成ペアデータを用いてモデルを事前学習する手法を提案する。特に,時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。
論文参考訳（メタデータ） (2024-01-01T14:14:35Z)
Multi-task Image Restoration Guided By Robust DINO Features [88.74005987908443]
DINOv2から抽出したロバストな特徴を利用したマルチタスク画像復元手法であるmboxtextbfDINO-IRを提案する。まず,DINOV2の浅い特徴を動的に融合するPSF (Pixel-semantic fusion) モジュールを提案する。これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
論文参考訳（メタデータ） (2023-12-04T06:59:55Z)
DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。 DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文参考訳（メタデータ） (2023-08-29T07:11:52Z)
Spectral Graphormer: Spectral Graph-based Transformer for Egocentric Two-Hand Reconstruction using Multi-View Color Images [33.70056950818641]
マルチビューRGB画像から2つの高忠実度ハンドを再構成するトランスフォーマーベースの新しいフレームワークを提案する。本研究では, 実データへの合成学習モデルの一般化を実証し, 現実的な両手再構成を実現できることを示す。
論文参考訳（メタデータ） (2023-08-21T20:07:02Z)
Refusion: Enabling Large-Size Realistic Image Restoration with Latent-Space Diffusion Models [9.245782611878752]
ネットワークアーキテクチャ、ノイズレベル、デノイングステップ、トレーニング画像サイズ、知覚/スケジューリングスコアなど、様々な面で拡散モデルを強化する。また、復号処理のために元の入力からの高分解能情報を保存しつつ、低分解能潜時空間での拡散を行うU-Netベースの潜時拡散モデルを提案する。これらの修正により、現実世界の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換など、様々な画像復元タスクに拡散モデルを適用することができる。
論文参考訳（メタデータ） (2023-04-17T14:06:49Z)
Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。 MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2021-02-04T18:57:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。