論文の概要: LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2509.22414v1
- Date: Fri, 26 Sep 2025 14:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.509032
- Title: LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer
- Title(参考訳): LucidFlux:大容量拡散変換器によるカプセルフリーユニバーサルイメージ復元
- Authors: Song Fei, Tian Ye, Lujia Wang, Lei Zhu,
- Abstract要約: ユニバーサル画像復元(UIR)は、意味を保ちながら未知の混合物によって劣化した画像を復元することを目的としている。
本稿では,大容量拡散変換器(Flux.1)を画像キャプションなしで適用可能な,キャプションフリーなUIRフレームワークであるLucidFluxを紹介する。
- 参考スコア(独自算出の注目度): 13.648463698480226
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Universal image restoration (UIR) aims to recover images degraded by unknown mixtures while preserving semantics -- conditions under which discriminative restorers and UNet-based diffusion priors often oversmooth, hallucinate, or drift. We present LucidFlux, a caption-free UIR framework that adapts a large diffusion transformer (Flux.1) without image captions. LucidFlux introduces a lightweight dual-branch conditioner that injects signals from the degraded input and a lightly restored proxy to respectively anchor geometry and suppress artifacts. Then, a timestep- and layer-adaptive modulation schedule is designed to route these cues across the backbone's hierarchy, in order to yield coarse-to-fine and context-aware updates that protect the global structure while recovering texture. After that, to avoid the latency and instability of text prompts or MLLM captions, we enforce caption-free semantic alignment via SigLIP features extracted from the proxy. A scalable curation pipeline further filters large-scale data for structure-rich supervision. Across synthetic and in-the-wild benchmarks, LucidFlux consistently outperforms strong open-source and commercial baselines, and ablation studies verify the necessity of each component. LucidFlux shows that, for large DiTs, when, where, and what to condition on -- rather than adding parameters or relying on text prompts -- is the governing lever for robust and caption-free universal image restoration in the wild.
- Abstract(参考訳): ユニバーサル画像復元(UIR)は、未知の混合物によって劣化した画像の回復とセマンティクスの保存を目的としている。
本稿では,大容量拡散変換器(Flux.1)を画像キャプションなしで適用可能な,キャプションフリーなUIRフレームワークであるLucidFluxを紹介する。
LucidFluxは、劣化した入力から信号を注入する軽量のデュアルブランチコンディショナーと、それぞれがアンカージオメトリとアーティファクトの抑制を行う軽量なプロキシを導入している。
次に、時間ステップおよび層適応変調スケジュールは、これらのキューをバックボーン階層にルーティングするように設計され、テクスチャを回復しながらグローバル構造を保護し、粗い粒度とコンテキストを意識した更新を出力する。
その後、テキストプロンプトやMLLMキャプションのレイテンシや不安定さを回避するため、プロキシから抽出したSigLIP機能を介してキャプションフリーなセマンティックアライメントを強制する。
スケーラブルなキュレーションパイプラインは、構造豊富な監視のために、大規模データをフィルタする。
LucidFluxはシンセサイザーとイン・ザ・ワイルドのベンチマークを通じて、強力なオープンソースと商用のベースラインを一貫して上回り、アブレーション研究は各コンポーネントの必要性を検証している。
LucidFluxは、大規模なDiTでは、パラメータの追加やテキストプロンプトに頼るのではなく、いつ、どこで、何を条件にするかが、野生で堅牢でキャプションのないユニバーサルイメージ復元のための管理レバーであることを示している。
関連論文リスト
- When Color-Space Decoupling Meets Diffusion for Adverse-Weather Image Restoration [31.345996524182127]
我々はLumina-Chroma Decomposition Network(LCDN)とLumina-Guided Diffusion Model(LGDM)を提示する。
LCDNは、YCbCr色空間で劣化した画像を処理し、分解関連輝度と劣化不変色成分を別々に処理する。
LGDMにはTextitDynamic Time Step Lossが組み込まれており、デノナイジングネットワークを最適化し、画像内の低周波と高周波の両方の特徴のバランスの取れた回復を保証する。
論文 参考訳(メタデータ) (2025-09-21T10:39:06Z) - SODiff: Semantic-Oriented Diffusion Model for JPEG Compression Artifacts Removal [50.90827365790281]
SODiffはJPEGアーティファクト削除のためのセマンティック指向のワンステップ拡散モデルである。
我々の中核的な考え方は、効果的な復元ヒンジは、事前訓練された拡散モデルに対する意味指向的なガイダンスを提供することである。
SAIPEは、低品質(LQ)画像からリッチな特徴を抽出し、テキストエンコーダとセマンティックに整合した埋め込み空間に投影する。
論文 参考訳(メタデータ) (2025-08-10T13:48:07Z) - CIVQLLIE: Causal Intervention with Vector Quantization for Low-Light Image Enhancement [5.948286668586509]
現在の低照度画像強調法は重大な課題に直面している。
CIVQLLIEは、因果推論による離散表現学習のパワーを活用する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-08-05T11:36:39Z) - Visual-Instructed Degradation Diffusion for All-in-One Image Restoration [29.910376294021052]
視覚指導誘導劣化拡散を利用したオールインワン画像復元フレームワークである textbfDefusion を提案する。
Defusionは複雑な画像復元タスクや実世界の劣化など、さまざまな画像復元タスクにおいて、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-20T12:50:42Z) - Vision-Language Gradient Descent-driven All-in-One Deep Unfolding Networks [14.180694577459425]
Vision-Language-Guided Unfolding Network (VLU-Net)は、複数の分解タイプを同時に扱うための統合DUNフレームワークである。
VLU-Netは、最初のオールインワンのDUNフレームワークであり、SOTSデハージングデータセットで3.74dB、Rain100Lデラリニングデータセットで1.70dB、現在のリードワンとオールインワンのエンドツーエンドメソッドで3.74dBを上回ります。
論文 参考訳(メタデータ) (2025-03-21T08:02:48Z) - Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、最新のマルチモーダル大言語モデル(MLLM)を利用して、低解像度画像からプロンプトを生成する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - Reti-Diff: Illumination Degradation Image Restoration with Retinex-based
Latent Diffusion Model [59.08821399652483]
照明劣化画像復元(IDIR)技術は、劣化した画像の視認性を改善し、劣化した照明の悪影響を軽減することを目的としている。
これらのアルゴリズムのうち、拡散モデル(DM)に基づく手法は期待できる性能を示しているが、画像レベルの分布を予測する際に、重い計算要求や画素の不一致の問題に悩まされることが多い。
我々は、コンパクトな潜在空間内でDMを活用して、簡潔な指導先を生成することを提案し、IDIRタスクのためのReti-Diffと呼ばれる新しいソリューションを提案する。
Reti-Diff は Retinex-based Latent DM (RLDM) と Retinex-Guided Transformer (RG) の2つの鍵成分からなる。
論文 参考訳(メタデータ) (2023-11-20T09:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。