論文の概要: Contrastive Conditional-Unconditional Alignment for Long-tailed Diffusion Model
- arxiv url: http://arxiv.org/abs/2507.09052v2
- Date: Fri, 24 Oct 2025 22:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.397086
- Title: Contrastive Conditional-Unconditional Alignment for Long-tailed Diffusion Model
- Title(参考訳): 長期拡散モデルに対するコントラスト条件-無条件アライメント
- Authors: Fang Chen, Alex Villa, Gongbo Liang, Xiaoyi Lu, Meng Tang,
- Abstract要約: クラス条件画像合成のためのトレーニングデータは、尾のクラスのための限られた画像を持つ長い尾の分布を示すことが多い。
不均衡なデータに基づいて訓練されたクラス条件拡散モデルに対しては、テール級画像の多様性と忠実度を改善することを目的としている。
- 参考スコア(独自算出の注目度): 5.287142499835546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training data for class-conditional image synthesis often exhibit a long-tailed distribution with limited images for tail classes. Such an imbalance causes mode collapse and reduces the diversity of synthesized images for tail classes. For class-conditional diffusion models trained on imbalanced data, we aim to improve the diversity and fidelity of tail class images without compromising the quality of head class images. We achieve this by introducing two simple but highly effective loss functions. Firstly, we employ an Unsupervised Contrastive Loss (UCL) utilizing negative samples to increase the distance/dissimilarity among synthetic images. Such regularization is coupled with a standard trick of batch resampling to further diversify tail-class images. Our second loss is an Alignment Loss (AL) that aligns class-conditional generation with unconditional generation at large timesteps. This second loss makes the denoising process insensitive to class conditions for the initial steps, which enriches tail classes through knowledge sharing from head classes. We successfully leverage contrastive learning and conditional-unconditional alignment for class-imbalanced diffusion models. Our framework is easy to implement as demonstrated on both U-Net based architecture and Diffusion Transformer. Our method outperforms vanilla denoising diffusion probabilistic models, score-based diffusion model, and alternative methods for class-imbalanced image generation across various datasets, in particular ImageNet-LT with 256x256 resolution.
- Abstract(参考訳): クラス条件画像合成のためのトレーニングデータは、尾のクラスのための限られた画像を持つ長い尾の分布を示すことが多い。
このような不均衡はモード崩壊を引き起こし、尾クラスの合成画像の多様性を低下させる。
不均衡なデータに基づいて訓練されたクラス条件拡散モデルに対しては、頭部画像の品質を損なうことなく、尾画像の多様性と忠実度を向上させることを目的としている。
2つの単純かつ高効率な損失関数を導入することでこれを実現する。
まず, 負のサンプルを用いた教師なしコントラスト損失(UCL)を用いて, 合成画像間の距離/相違性を増加させる。
このような正規化とバッチ再サンプリングの標準的なトリックが組み合わさって、テールクラスのイメージをさらに多様化させる。
第2の損失はアライメント・ロス(AL)であり、クラス条件生成と非条件生成を大きなタイミングで整列させる。
この第二の損失は、初期ステップのクラス条件に敏感なデノナイジングプロセスをもたらし、ヘッドクラスからの知識共有を通じてテールクラスを豊かにする。
クラス不均衡拡散モデルに対するコントラスト学習と条件条件不条件アライメントをうまく活用する。
我々のフレームワークは、U-NetベースのアーキテクチャとDiffusion Transformerの両方で実証されているように、実装が容易です。
本手法は,様々なデータセット,特に256x256解像度の画像Net-LTにおいて,拡散確率モデル,スコアベース拡散モデル,およびクラス不均衡画像生成のための代替手法のバニラよりも優れる。
関連論文リスト
- Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Generating images of rare concepts using pre-trained diffusion models [32.5337654536764]
テキスト・ツー・イメージ拡散モデルは高品質な画像を合成できるが、様々な制限がある。
これらの制限は、トレーニングデータの長い尾の性質に起因していることが示されています。
ノイズ空間内で適切な生成種を慎重に選択することで、稀な概念を正しく生成できることが示される。
論文 参考訳(メタデータ) (2023-04-27T20:55:38Z) - Improving GANs for Long-Tailed Data through Group Spectral
Regularization [51.58250647277375]
本稿では, スペクトル爆発によるモード崩壊を防止する新しいグループスペクトル正規化器 (gSR) を提案する。
我々は,gSRが既存の拡張および正規化技術と効果的に組み合わせることで,長期化データ上での最先端の画像生成性能が向上することを発見した。
論文 参考訳(メタデータ) (2022-08-21T17:51:05Z) - Two-Stage Fine-Tuning: A Novel Strategy for Learning Class-Imbalanced
Data [11.66734752179563]
長い尾の分散データの分類は難しい問題である。
トレーニング済みのモデルを下流タスクに転送する場合、特に微調整では、テールクラスでの学習は困難である。
本稿では,2段階のファインチューニングを提案する。まず,事前訓練されたモデルの最終層をクラスバランスの再重み付け損失で微調整し,次に標準のファインチューニングを実行する。
論文 参考訳(メタデータ) (2022-07-22T03:39:51Z) - Improving Tail-Class Representation with Centroid Contrastive Learning [145.73991900239017]
本稿では,長い尾を持つ表現学習を改善するために,補間型セントロイドコントラスト学習(ICCL)を提案する。
ICCLは、クラス別サンプルとクラス別サンプルの2つの画像を補間し、ICCLの表現が両方のソースクラスのセントロイドを取得するために使用されるようにモデルを訓練する。
我々の結果は、現実世界の長い尾の分布を持つiNaturalist 2018データセットで2.8%の精度向上を示した。
論文 参考訳(メタデータ) (2021-10-19T15:24:48Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Contrastive Learning based Hybrid Networks for Long-Tailed Image
Classification [31.647639786095993]
画像表現の教師付きコントラスト損失と、分類器を学習するためのクロスエントロピー損失からなる新しいハイブリッドネットワーク構造を提案する。
3つの長尾分類データセットに関する実験は、長尾分類における比較学習に基づくハイブリッドネットワークの提案の利点を示している。
論文 参考訳(メタデータ) (2021-03-26T05:22:36Z) - An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human
Pose Estimation [80.02124918255059]
半教師付き学習は、ラベルなし画像の探索によってモデルの精度を高めることを目的としている。
私たちは相互に教え合うために2つのネットワークを学びます。
各ネットワーク内の容易なイメージに関するより信頼性の高い予測は、他のネットワークに対応するハードイメージについて学ぶように教えるために使用される。
論文 参考訳(メタデータ) (2020-11-25T03:29:52Z) - Background Splitting: Finding Rare Classes in a Sea of Background [55.03789745276442]
我々は,少数の稀なカテゴリの画像分類のための,高精度な深層モデルの訓練という現実的な問題に焦点をあてる。
これらのシナリオでは、ほとんどの画像はデータセットの背景カテゴリに属します(データセットの95%は背景です)。
非バランスなデータセットをトレーニングするための標準的な微調整アプローチと最先端アプローチの両方が、この極端な不均衡の存在下で正確な深層モデルを生成していないことを実証する。
論文 参考訳(メタデータ) (2020-08-28T23:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。