論文の概要: Beyond Model Design: Data-Centric Training and Self-Ensemble for Gaussian Color Image Denoising
- arxiv url: http://arxiv.org/abs/2604.11468v1
- Date: Mon, 13 Apr 2026 13:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.569782
- Title: Beyond Model Design: Data-Centric Training and Self-Ensemble for Gaussian Color Image Denoising
- Title(参考訳): モデルデザインを超えて - データ中心トレーニングとガウス色画像の自己組織化
- Authors: Gengjia Chang, Xining Ge, Weijun Yuan, Zhan Li, Qiurong Song, Luen Zhu, Shuhong Liu,
- Abstract要約: NTIRE 2026 Image Denoising Challenge (ガウス色画像の固定ノイズレベル$=50$でのデノイング)の解法について述べる。
成熟したRestormerアーキテクチャのパフォーマンス境界を、より強力なデータ中心のトレーニングと、より完全なTest-Time機能リリースという2つの相補的な方向から見直す。
100枚の画像の挑戦検証セットでは,30.762 dB PSNRと0.861 SSIMを達成し,公開Restormer $!=50$事前トレーニングベースラインを最大3.366 dB PSNRで改善した。
- 参考スコア(独自算出の注目度): 7.344881114730842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our solution to the NTIRE 2026 Image Denoising Challenge (Gaussian color image denoising at fixed noise level $σ= 50$). Rather than proposing a new restoration backbone, we revisit the performance boundary of the mature Restormer architecture from two complementary directions: stronger data-centric training and more complete Test-Time capability release. Starting from the public Restormer $σ\!=\!50$ baseline, we expand the standard multi-dataset training recipe with larger and more diverse public image corpora and organize optimization into two stages. At inference, we apply $\times 8$ geometric self-ensemble to further release model capacity. A TLC-style local inference wrapper is retained for implementation consistency; however, systematic ablation reveals its quantitative contribution to be negligible in this setting. On the challenge validation set of 100 images, our final submission achieves 30.762 dB PSNR and 0.861 SSIM, improving over the public Restormer $σ\!=\!50$ pretrained baseline by up to 3.366 dB PSNR. Ablation studies show that the dominant gain originates from the expanded training corpus and the two-stage optimization schedule, and self-ensemble provides marginal but consistent improvement.
- Abstract(参考訳): 本稿では, NTIRE 2026 Image Denoising Challenge (Gausian color image denoising at fixed noise level $σ= 50$) に対する解決策を提案する。
新しい復元バックボーンを提案するのではなく、成熟したRestormerアーキテクチャのパフォーマンス境界を2つの補完的な方向から再考する。
公開Restormer $σ\!
=\!
50$ベースラインで、我々はより大きく多様な公開画像コーパスで標準的なマルチデータセットトレーニングレシピを拡張し、最適化を2段階にまとめる。
推論では、さらにモデル容量を解放するために$\times 8$ 幾何自己アンサンブルを適用する。
TLCスタイルの局所推論ラッパーは実装整合性のために保持されるが、体系的なアブレーションは、その量的寄与がこの設定では無視可能であることを示す。
100枚の画像の挑戦検証セットでは、30.762 dB PSNRと0.861 SSIMを達成し、公開Restormer $σ\!
=\!
50ドルの事前訓練ベースラインを3.366dBPSNRまで引き上げた。
アブレーション研究は、強化されたトレーニングコーパスと2段階最適化スケジュールから大きな利益が得られ、セルフアンサンブルは限界はあるものの一貫した改善をもたらすことを示している。
関連論文リスト
- Image Tokenizer Needs Post-Training [76.91832192778732]
本稿では,遅延空間構築と復号化に着目した新しいトークン化学習手法を提案する。
具体的には,トークン化の堅牢性を大幅に向上させる,プラグアンドプレイ型トークン化学習手法を提案する。
生成したトークンと再構成されたトークンの分布差を軽減するために、よく訓練された生成モデルに関するトークン化デコーダをさらに最適化する。
論文 参考訳(メタデータ) (2025-09-15T21:38:03Z) - Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think [63.25744258438214]
REPAとその変種は、事前訓練されたモデルから外部の視覚表現を取り入れることで、拡散モデルのトレーニング課題を効果的に軽減する。
偏見推論過程全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。
本稿では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG)を提案する。
論文 参考訳(メタデータ) (2025-07-02T08:29:18Z) - Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards [52.90573877727541]
拡散モデル微調整では強化学習(RL)が検討されている。
RLの有効性はスパース報酬の挑戦によって制限される。
$textB2text-DiffuRL$は既存の最適化アルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2025-03-14T09:45:19Z) - You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs [13.133574069588896]
YOSOは、高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであり、高いトレーニング安定性とモードカバレッジを持つ。
提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。
特に、YOSO-PixArt-$alpha$は、512の解像度でトレーニングされた1ステップで画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-19T17:34:27Z) - Compensation Sampling for Improved Convergence in Diffusion Models [12.311434647047427]
拡散モデルは画像生成において顕著な品質を達成するが、コストはかかる。
反復 denoising は高忠実度画像を生成するために多くの時間ステップを必要とする。
対象データの初期的不正確な再構成による復元誤差の蓄積により,復調過程が著しく制限されていることを論じる。
論文 参考訳(メタデータ) (2023-12-11T10:39:01Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Denoising Diffusion Probabilistic Models for Robust Image
Super-Resolution in the Wild [2.190237353315235]
本稿では,ブラインド超解像のための拡散モデルSR3+を紹介する。
我々は, 自己指導訓練のための複合的, パラメータ化劣化, および, 訓練および試験中の騒音増強を併用した自己指導訓練を提唱する。
これらのイノベーション、大規模な畳み込みアーキテクチャ、大規模なデータセットにより、SR3+はSR3を大きく上回っている。
論文 参考訳(メタデータ) (2023-02-15T18:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。