論文の概要: D3S2: Diffusion-Guided Dataset Distillation for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2605.25022v1
- Date: Sun, 24 May 2026 12:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.657903
- Title: D3S2: Diffusion-Guided Dataset Distillation for Semantic Segmentation
- Title(参考訳): D3S2: セマンティックセグメンテーションのための拡散誘導型データセット蒸留
- Authors: Wenjie Zheng, Haoji Hu, Jiali Lu, Xingze Zou, Jing Wang,
- Abstract要約: セグメンテーションDDには3つの重要な課題がある: (i) 長い尾のクラス不均衡、 (ii) 画像と高密度ラベル間の厳密なピクセルワイドアライメントの必要性、 (iii) 複雑なモデルで高解像度データを最適化する計算コスト。
クラスBalanced Mask Selectionでは、未表現のクラスを優先する欲求戦略を用いて代表マスクセットを構築する。
拡散誘導画像合成では、予めトレーニングされたレイアウト・ツー・イメージ拡散モデルを用いて、選択したマスクに条件付き画像を生成し、アライメントを自然に確保する。
- 参考スコア(独自算出の注目度): 8.30626759264565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation (DD) aims to compress large-scale datasets into compact synthetic sets while preserving training efficacy. However, existing studies mainly focus on image classification, leaving dense prediction tasks such as semantic segmentation largely underexplored. In this work, we identify three key challenges for segmentation DD: (i) long-tailed class imbalance, (ii) the need for strict pixel-wise alignment between images and dense labels, and (iii) the high computational cost of optimizing high-resolution data with complex models. To address these challenges, we propose D3S2, a Diffusion-guided Dataset Distillation framework for Semantic Segmentation. Our method adopts a two-stage design. In Class-Balanced Mask Selection, we construct a representative mask set via a greedy strategy that prioritizes underrepresented classes. In Diffusion-Guided Image Synthesis, we employ a pretrained layout-to-image diffusion model to generate images conditioned on the selected masks, naturally ensuring spatial alignment. To further enhance the training utility of synthesized data, we introduce guided diffusion sampling with two complementary objectives: a segmentation-consistency loss for pixel-level alignment, and a class-wise feature matching loss for aligning per-class feature statistics across layers. Extensive experiments demonstrate the superiority of D3S2. Notably, at an extremely compression rate of 1%, our method achieves 24.99% and 35.49% mIoU on ADE20K and COCO-Stuff with Mask2Former (Swin-S), outperforming random selection by 9.34% and 5.70%, respectively.
- Abstract(参考訳): データセット蒸留(DD)は、訓練効果を維持しながら、大規模なデータセットをコンパクトな合成セットに圧縮することを目的としている。
しかし、既存の研究では主に画像分類に焦点が当てられており、セマンティックセグメンテーションのような密集した予測タスクはほとんど探索されていない。
本稿では,セグメンテーションDDにおける3つの課題について述べる。
(一)長尾級不均衡
二 画像と濃密なラベルとの厳密なピクセルワイドアライメントの必要性
三 複雑なモデルで高解像度データを最適化する際の計算コストが高いこと。
これらの課題に対処するため,セマンティックセグメンテーションのための拡散誘導型データセット蒸留フレームワークD3S2を提案する。
我々の手法は2段階の設計を採用する。
クラスBalanced Mask Selectionでは、未表現のクラスを優先する欲求戦略を用いて代表マスクセットを構築する。
拡散誘導画像合成では、予めトレーニングされたレイアウト・ツー・イメージ拡散モデルを用いて、選択したマスクに条件付き画像を生成し、空間的アライメントを自然に確保する。
合成データのトレーニングの有用性をさらに高めるために,画素レベルのアライメントのためのセグメンテーション・一貫性損失と,階層間のクラスごとの特徴統計を整合させるクラスワイド特徴マッチング損失の2つの相補的な目的により,ガイド付き拡散サンプリングを導入する。
大規模な実験は、D3S2の優越性を実証した。
特に,最大圧縮率1%でADE20KおよびCOCO-Stuff with Mask2Former(Swin-S)で24.99% mIoU,35.49% mIoUを達成し,ランダム選択を9.34%,5.70%で上回った。
関連論文リスト
- SAS: Semantic-aware Sampling for Generative Dataset Distillation [55.27114962330541]
本稿では,コントラスト言語-画像事前学習(CLIP)をポストサンプリングのセマンティクスとして活用することで,データセット蒸留のセマンティック・アウェア・パースペクティブを導入する。
我々のゴールは、コンパクトであるだけでなく、意味的にクラス差別的で多様である蒸留データセットを得ることです。
論文 参考訳(メタデータ) (2026-05-18T08:05:46Z) - Preference Score Distillation: Leveraging 2D Rewards to Align Text-to-3D Generation with Human Preference [69.34278282513593]
Preference Score Distillation (PSD) は、3Dトレーニングデータなしでテキストから3D合成を行うための最適化ベースのフレームワークである。
我々の重要な洞察は、ピクセルレベルの勾配の不整合性に起因している。
我々は、好みスコアと負のテキスト埋め込みを協調最適化するための適応戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T08:23:36Z) - Dataset Condensation with Color Compensation [6.704200733185588]
画像レベルの選択方法(コアセット選択、データセット量子化)は、凝縮不効率に悩まされる。
データセットの凝縮における重要な問題は、情報キャリアと基本的な意味表現ユニットとしてのカラーの二重の役割の監視である。
我々は、Color Compensationを用いたデータセット凝縮フレームワークDC3を提案する。
論文 参考訳(メタデータ) (2025-08-02T01:44:23Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - Label-Efficient 3D Brain Segmentation via Complementary 2D Diffusion Models with Orthogonal Views [10.944692719150071]
相補的な2次元拡散モデルを用いた新しい3次元脳分割法を提案する。
私たちのゴールは、個々の主題に対して完全なラベルを必要とせずに、信頼性の高いセグメンテーション品質を達成することです。
論文 参考訳(メタデータ) (2024-07-17T06:14:53Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。