論文の概要: Data Warmup: Complexity-Aware Curricula for Efficient Diffusion Training
- arxiv url: http://arxiv.org/abs/2604.07397v1
- Date: Wed, 08 Apr 2026 08:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.44628
- Title: Data Warmup: Complexity-Aware Curricula for Efficient Diffusion Training
- Title(参考訳): データワームアップ:効率的な拡散訓練のための複雑さに配慮したカリキュラム
- Authors: Jinhong Lin, Pan Wang, Zitong Zhan, Lin Zhang, Pedro Morgado,
- Abstract要約: データワームアップ(Data Warmup)は、モデルや損失を変更することなく、簡単な画像から複雑な画像へのトレーニングをスケジュールするカリキュラム戦略である。
SiTバックボーンを備えたImageNet 256x256では、Data WarmupはISを最大6.11まで改善し、FIDを最大3.41まで改善し、ベースライン品質は数万回以上向上した。
- 参考スコア(独自算出の注目度): 12.295531883770622
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A key inefficiency in diffusion training occurs when a randomly initialized network, lacking visual priors, encounters gradients from the full complexity spectrum--most of which it lacks the capacity to resolve. We propose Data Warmup, a curriculum strategy that schedules training images from simple to complex without modifying the model or loss. Each image is scored offline by a semantic-aware complexity metric combining foreground dominance (how much of the image salient objects occupy) and foreground typicality (how closely the salient content matches learned visual prototypes). A temperature-controlled sampler then prioritizes low-complexity images early and anneals toward uniform sampling. On ImageNet 256x256 with SiT backbones (S/2 to XL/2), Data Warmup improves IS by up to 6.11 and FID by up to 3.41, reaching baseline quality tens of thousands of iterations earlier. Reversing the curriculum (exposing hard images first) degrades performance below the uniform baseline, confirming that the simple-to-complex ordering itself drives the gains. The method combines with orthogonal accelerators such as REPA and requires only ~10 minutes of one-time preprocessing with zero per-iteration overhead.
- Abstract(参考訳): 拡散トレーニングにおける重要な非効率性は、視覚的先行性に欠けるランダムに初期化されたネットワークが、完全な複雑性スペクトルから勾配に遭遇したときである。
データワームアップ(Data Warmup)は、モデルや損失を変更することなく、簡単な画像から複雑な画像へのトレーニングをスケジュールするカリキュラム戦略である。
それぞれの画像は、前景の優位性(画像の顕著なオブジェクトがどの程度占めているか)と前景の典型性(学習されたビジュアルプロトタイプとどのように一致しているか)を組み合わせた意味認識の複雑さの計量によって、オフラインでスコアされる。
温度制御されたサンプリング装置は、低複雑さ画像を早期に優先順位付けし、均一なサンプリングを行う。
SiTバックボーン付きImageNet 256x256(S/2からXL/2)では、Data WarmupはISを最大6.11まで改善し、FIDを最大3.41まで改善し、ベースライン品質は数万回以上向上した。
カリキュラムを逆転させる(まずハードイメージを抽出する)ことで、均一なベースラインよりもパフォーマンスが低下し、単純で複雑な順序付け自体がゲインを駆動することを確認した。
この手法はREPAのような直交加速器と組み合わせて、1時間前処理で1回当たりのオーバーヘッドがゼロとなる約10分しか必要としない。
関連論文リスト
- Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think [63.25744258438214]
REPAとその変種は、事前訓練されたモデルから外部の視覚表現を取り入れることで、拡散モデルのトレーニング課題を効果的に軽減する。
偏見推論過程全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。
本稿では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG)を提案する。
論文 参考訳(メタデータ) (2025-07-02T08:29:18Z) - REPA Works Until It Doesn't: Early-Stopped, Holistic Alignment Supercharges Diffusion Training [58.33728862521732]
Diffusion Transformer (DiTs)は最先端の画像品質を提供するが、訓練は依然として遅い。
最近の治療 -- DiT の隠された特徴と非生成的教師(例えば DINO)の特徴とを一致させる表現アライメント(REPA) -- は、初期のエポックを劇的に加速させるが、その後パフォーマンスを低下させる。
生成学習者が共同データ分布をモデル化し始めると、教師の低次元埋め込みと注意パターンがガイドではなくストラトジャケットになる。
HASTEを紹介する
論文 参考訳(メタデータ) (2025-05-22T15:34:33Z) - Data-Efficient Generation for Dataset Distillation [12.106527496044473]
ラベル付きリアルな合成画像を生成する条件付き潜時拡散モデルを訓練する。
我々は,少数の合成画像のみを用いてモデルを効果的に訓練し,大規模な実検体で評価できることを実証した。
論文 参考訳(メタデータ) (2024-09-05T22:31:53Z) - One-Shot Image Restoration [0.0]
提案手法の適用性, 堅牢性, 計算効率を, 教師付き画像の劣化と超解像に応用できることを実験的に示す。
本結果は,学習モデルのサンプル効率,一般化,時間複雑性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-04-26T14:03:23Z) - Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。
本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。
我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single
Image Super-Resolution and Beyond [75.37541439447314]
単一画像超解像(SISR)は、低解像度(LR)画像を高解像度(HR)バージョンにアップサンプリングする根本的な問題を扱う。
本稿では,線形組立画素適応回帰ネットワーク (LAPAR) を提案する。
論文 参考訳(メタデータ) (2021-05-21T15:47:18Z) - A deep primal-dual proximal network for image restoration [8.797434238081372]
我々は、プリミティブ・デュアル・イテレーションから構築されたディープPDNetというディープネットワークを設計し、前もって分析を行い、標準的なペナル化可能性の最小化を図った。
フルラーニング」と「パートラーニング」の2つの異なる学習戦略が提案され、第1は最も効率的な数値である。
以上の結果から,提案したDeepPDNetは,MNISTと,より複雑なBSD68,BSD100,SET14データセットにおいて,画像復元と単一画像超解像処理に優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-02T08:29:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。