論文の概要: Consist-Retinex: One-Step Noise-Emphasized Consistency Training Accelerates High-Quality Retinex Enhancement
- arxiv url: http://arxiv.org/abs/2512.08982v1
- Date: Fri, 05 Dec 2025 13:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.243936
- Title: Consist-Retinex: One-Step Noise-Emphasized Consistency Training Accelerates High-Quality Retinex Enhancement
- Title(参考訳): 一貫性:1ステップの騒音強調訓練により高品質網膜の増強が促進される
- Authors: Jian Xu, Wei Chen, Shigui Li, Delu Zeng, John Paisley, Qibin Zhao,
- Abstract要約: textbfConsist-Retinexは、Retinexベースの低照度拡張に一貫性モデリングを適用する最初のフレームワークである。
提案手法は,(1)テキストbfdual-objective consistency loss,(2)テキストbfdaptive noise-emphasized sample strategyである。
VE-LOL-Lでは、Consist-Retinexは、単一ステップサンプリングによるTextbfstate-of-the-artパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 30.175082042057543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved remarkable success in low-light image enhancement through Retinex-based decomposition, yet their requirement for hundreds of iterative sampling steps severely limits practical deployment. While recent consistency models offer promising one-step generation for \textit{unconditional synthesis}, their application to \textit{conditional enhancement} remains unexplored. We present \textbf{Consist-Retinex}, the first framework adapting consistency modeling to Retinex-based low-light enhancement. Our key insight is that conditional enhancement requires fundamentally different training dynamics than unconditional generation standard consistency training focuses on low-noise regions near the data manifold, while conditional mapping critically depends on large-noise regimes that bridge degraded inputs to enhanced outputs. We introduce two core innovations: (1) a \textbf{dual-objective consistency loss} combining temporal consistency with ground-truth alignment under randomized time sampling, providing full-spectrum supervision for stable convergence; and (2) an \textbf{adaptive noise-emphasized sampling strategy} that prioritizes training on large-noise regions essential for one-step conditional generation. On VE-LOL-L, Consist-Retinex achieves \textbf{state-of-the-art performance with single-step sampling} (\textbf{PSNR: 25.51 vs. 23.41, FID: 44.73 vs. 49.59} compared to Diff-Retinex++), while requiring only \textbf{1/8 of the training budget} relative to the 1000-step Diff-Retinex baseline.
- Abstract(参考訳): 拡散モデルは、レチネックスをベースとした分解による低照度画像の強化において顕著な成功を収めているが、数百の反復サンプリングステップの要求は実用的展開を著しく制限している。
最近の一貫性モデルは、 \textit{unconditional synthesis} に対して有望な一段階生成を提供するが、 \textit{conditional enhancement} へのそれらの適用は未検討のままである。
我々は、Retinexベースの低照度拡張に一貫性モデリングを適用する最初のフレームワークである‘textbf{Consist-Retinex} を提示する。
我々の重要な洞察は、条件強化は、非条件生成標準整合性トレーニングがデータ多様体の近くの低雑音領域に焦点を当てているのに対して、条件マッピングは劣化した入力を拡張出力にブリッジする大雑音状態に依存している。
そこで本研究では, 時間的整合性と地道的整合性を組み合わせた時間的整合性を両立させ, 安定収束のための全スペクトル監視と, 1段階の条件生成に不可欠な大音域でのトレーニングを優先する音場適応型雑音強調サンプリング戦略の2点を紹介する。
VE-LOL-Lでは、Consist-Retinex はシングルステップサンプリングによる \textbf{state-of-the-art performance} (\textbf{PSNR: 25.51 vs. 23.41, FID: 44.73 vs. 49.59} を Diff-Retinex++ と比較して達成し、1000ステップのDiff-Retinex ベースラインに対するトレーニング予算の \textbf{1/8 のみを必要とする。
関連論文リスト
- Fast and Scalable Analytical Diffusion [43.4234198410875]
解析的拡散モデルは、デノナイジングスコアを経験的ベイズ平均として定式化することにより、生成モデルへの数学的に透過的な経路を提供する。
標準定式化では、すべてのタイムステップでフルデータセットのスキャンを必要とし、データセットサイズと線形にスケーリングする。
我々は,データセットサイズから推論を分離するトレーニングフリーフレームワークであるDynamic Time-Aware Golden Subset Diffusion (GoldDiff)を提案する。
論文 参考訳(メタデータ) (2026-02-18T14:41:09Z) - Dual-End Consistency Model [41.982957134224904]
スロー反復サンプリングは拡散モデルとフローベース生成モデルの実践的展開において大きなボトルネックとなる。
本稿では,安定かつ効果的なトレーニングを実現するために,バイタルサブ軌道クラスタを選択するDual-End Consistency Model (DE-CM)を提案する。
提案手法は,ImageNet 256x256データセットの1ステップ生成において,最先端のFIDスコア1.70を達成し,既存のCMベースのワンステップアプローチよりも優れていた。
論文 参考訳(メタデータ) (2026-02-11T11:51:01Z) - Sphinx: Efficiently Serving Novel View Synthesis using Regression-Guided Selective Refinement [9.67064002183396]
スフィンクス(Sphinx)は、拡散レベルの忠実度を計算量的に大幅に低い値で達成する、訓練不要なハイブリッド推論フレームワークである。
スフィンクスは拡散モデル推論よりも平均1.8倍のスピードアップを達成するが、知覚的劣化は5%未満である。
論文 参考訳(メタデータ) (2025-11-24T01:09:23Z) - Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think [63.25744258438214]
REPAとその変種は、事前訓練されたモデルから外部の視覚表現を取り入れることで、拡散モデルのトレーニング課題を効果的に軽減する。
偏見推論過程全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。
本稿では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG)を提案する。
論文 参考訳(メタデータ) (2025-07-02T08:29:18Z) - Stable Consistency Tuning: Understanding and Improving Consistency Models [40.2712218203989]
拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。
新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。
本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
論文 参考訳(メタデータ) (2024-10-24T17:55:52Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation [74.32186107058382]
本稿では,テキスト・画像の高速生成を実現するために,SCott(Consistency Distillation)を提案する。
SCottは、訓練済みの教師モデルの通常の微分方程式解法に基づくサンプリングプロセスを学生に蒸留する。
安定拡散V1.5教師によるMSCOCO-2017 5Kデータセットでは、SCottは2ステップのサンプリングステップを持つ21.9のFIDを達成し、1ステップのInstaFlow (23.4)と4ステップのUFOGen (22.1)を上回ります。
論文 参考訳(メタデータ) (2024-03-03T13:08:32Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Improved Techniques for Training Consistency Models [13.475711217989975]
本稿では, 蒸留なしでデータから直接一貫性モデルを学習する, 整合性トレーニングのための改良手法を提案する。
整合性学習目的のための対数正規雑音スケジュールを提案し、トレーニングの繰り返し回数毎に全離散化ステップを2倍にすることを提案する。
これらの修正により、一貫性モデルは1回のサンプリングステップでCIFAR-10で2.51と3.25のFIDスコア、ImageNetで64ドルをそれぞれ達成できる。
論文 参考訳(メタデータ) (2023-10-22T05:33:38Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。
本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。
我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。