論文の概要: CompDiff: Hierarchical Compositional Diffusion for Fair and Zero-Shot Intersectional Medical Image Generation
- arxiv url: http://arxiv.org/abs/2603.16551v1
- Date: Tue, 17 Mar 2026 14:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.3213
- Title: CompDiff: Hierarchical Compositional Diffusion for Fair and Zero-Shot Intersectional Medical Image Generation
- Title(参考訳): CompDiff: 公平かつゼロショットの医用画像生成のための階層的構成拡散
- Authors: Mahmoud Ibrahim, Bart Elen, Chang Sun, Gokhan Ertaylan, Michel Dumontier,
- Abstract要約: 生成モデルは、より公正なAIのための医療画像データセットの強化にますます使われています。
ジェネレータ自体が、人口集団全体で均等に高品質な画像を生成しているのだ。
本稿では,この問題を表現レベルで解決する階層型構成拡散フレームワークであるCompDiffを提案する。
- 参考スコア(独自算出の注目度): 3.5347586732342435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models are increasingly used to augment medical imaging datasets for fairer AI. Yet a key assumption often goes unexamined: that generators themselves produce equally high-quality images across demographic groups. Models trained on imbalanced data can inherit these imbalances, yielding degraded synthesis quality for rare subgroups and struggling with demographic intersections absent from training. We refer to this as the imbalanced generator problem. Existing remedies such as loss reweighting operate at the optimization level and provide limited benefit when training signal is scarce or absent for certain combinations. We propose CompDiff, a hierarchical compositional diffusion framework that addresses this problem at the representation level. A dedicated Hierarchical Conditioner Network (HCN) decomposes demographic conditioning, producing a demographic token concatenated with CLIP embeddings as cross-attention context. This structured factorization encourages parameter sharing across subgroups and supports compositional generalization to rare or unseen demographic intersections. Experiments on chest X-rays (MIMIC-CXR) and fundus images (FairGenMed) show that CompDiff compares favorably against both standard fine-tuning and FairDiffusion across image quality (FID: 64.3 vs. 75.1), subgroup equity (ES-FID), and zero-shot intersectional generalization (up to 21% FID improvement on held-out intersections). Downstream classifiers trained on CompDiff-generated data also show improved AUROC and reduced demographic bias, suggesting that architectural design of demographic conditioning is an important and underexplored factor in fair medical image generation. Code is available at https://anonymous.4open.science/r/CompDiff-6FE6.
- Abstract(参考訳): 生成モデルは、より公正なAIのための医療画像データセットの強化にますます使われています。
ジェネレータ自体が、人口集団全体で均等に高品質な画像を生成しているのだ。
不均衡なデータに基づいてトレーニングされたモデルは、これらの不均衡を継承し、希少なサブグループのための劣化した合成品質と、トレーニングを欠いた人口統計的交差に苦慮する。
これを不均衡生成問題と呼ぶ。
損失軽減のような既存の対策は、最適化レベルで動作し、特定の組み合わせに対して訓練信号が不足または欠如している場合に限られた利益をもたらす。
本稿では,この問題を表現レベルで解決する階層型構成拡散フレームワークであるCompDiffを提案する。
階層型コンディショナーネットワーク(HCN)は人口動態条件を分解し、CLIP埋め込みと結合した人口統計トークンを横断的コンテキストとして生成する。
この構造的因子化は、サブグループ間のパラメータ共有を促進し、稀あるいは未確認の人口交叉に対する構成的一般化をサポートする。
胸部X線(MIMIC-CXR)と眼底画像(FairGenMed)の実験では、コンプディフは画像品質(FID: 64.3 vs. 75.1)、サブグループエクイティ(ES-FID)、ゼロショット交叉一般化(ホールドアウト交差点でのFID改善の最大21%)において、標準微調整とフェア拡散の両面で良好に比較されている。
CompDiffの生成したデータに基づいてトレーニングされた下流分類器は、AUROCの改善と人口統計バイアスの低減も示しており、公平な医療画像生成において、人口動態条件付けのアーキテクチャ設計が重要かつ過小評価された要素であることを示唆している。
コードはhttps://anonymous.4open.science/r/CompDiff-6FE6で公開されている。
関連論文リスト
- Generative Classifiers Avoid Shortcut Solutions [84.23247217037134]
分類に対する差別的なアプローチは、しばしば、分配されるが、小さな分布シフトの下で失敗するショートカットを学習する。
生成型分類器は、主にスパイラルな特徴ではなく、コアとスパイラルの両方の全ての特徴をモデル化することでこの問題を回避することができることを示す。
拡散型および自己回帰型生成型分類器は,5つの標準画像およびテキスト分散シフトベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - Beyond Frequency: Scoring-Driven Debiasing for Object Detection via Blueprint-Prompted Image Synthesis [97.37770785712475]
オブジェクト検出のための世代ベースデバイアスフレームワークを提案する。
提案手法は,未表現オブジェクト群の性能ギャップを著しく狭める。
論文 参考訳(メタデータ) (2025-10-21T02:19:12Z) - Fair Text to Medical Image Diffusion Model with Subgroup Distribution Aligned Tuning [15.228147848600877]
医用画像へのテキスト・トゥ・メディカル・イメージ (T2MedI) の潜伏拡散モデルは, 医用画像データの不足を緩和する大きな可能性を秘めている。
しかし、自然画像モデルへのテキストとして、T2MedIモデルは一部のサブグループにも偏りがあり、トレーニングセットの少数派を見渡すことができる。
そこで本研究では,まず,CLIPテキストエンコーダを固定した,事前学習型 Imagen モデルに基づく T2MedI モデルを構築した。
そのデコーダは、C.のRadiology Objectsの医療画像に微調整されている。
論文 参考訳(メタデータ) (2024-06-21T03:23:37Z) - Decompose-and-Compose: A Compositional Approach to Mitigating Spurious Correlation [2.273629240935727]
画像の要素を組み合わせることで相関シフトを改善するために,分解分解(DaC)を提案する。
経験的リスク最小化(Empirical Risk Minimization, ERM)で訓練されたモデルでは, 通常, 因果成分, あるいはラベルとの急激な相関性が高い成分のいずれかに高い関与が認められた。
トレーニング中に,グループラベルやスプリアスの特徴に関する情報を必要とせず,画像に介入してグループバランスを行う手法を提案する。
論文 参考訳(メタデータ) (2024-02-29T07:24:24Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。