論文の概要: Label-Consistent Dataset Distillation with Detector-Guided Refinement
- arxiv url: http://arxiv.org/abs/2507.13074v1
- Date: Thu, 17 Jul 2025 12:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.491887
- Title: Label-Consistent Dataset Distillation with Detector-Guided Refinement
- Title(参考訳): 検出器誘導リファインメントを用いたラベル一貫性データセット蒸留
- Authors: Yawen Zou, Guang Li, Zi Wang, Chunzhi Gu, Chao Zhang,
- Abstract要約: 本稿では,コンパクトで情報性の高いデータセットを生成するための検出器誘導型データセット蒸留フレームワークを提案する。
提案手法は,高精細度で高精細度の代表画像を合成し,検証セットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 9.74050046377107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation (DD) aims to generate a compact yet informative dataset that achieves performance comparable to the original dataset, thereby reducing demands on storage and computational resources. Although diffusion models have made significant progress in dataset distillation, the generated surrogate datasets often contain samples with label inconsistencies or insufficient structural detail, leading to suboptimal downstream performance. To address these issues, we propose a detector-guided dataset distillation framework that explicitly leverages a pre-trained detector to identify and refine anomalous synthetic samples, thereby ensuring label consistency and improving image quality. Specifically, a detector model trained on the original dataset is employed to identify anomalous images exhibiting label mismatches or low classification confidence. For each defective image, multiple candidates are generated using a pre-trained diffusion model conditioned on the corresponding image prototype and label. The optimal candidate is then selected by jointly considering the detector's confidence score and dissimilarity to existing qualified synthetic samples, thereby ensuring both label accuracy and intra-class diversity. Experimental results demonstrate that our method can synthesize high-quality representative images with richer details, achieving state-of-the-art performance on the validation set.
- Abstract(参考訳): データセット蒸留(DD)は、元のデータセットに匹敵するパフォーマンスを達成するコンパクトで情報に富んだデータセットを生成し、ストレージと計算リソースの要求を減らすことを目的としている。
拡散モデルはデータセットの蒸留において顕著な進歩を遂げてきたが、生成された代理データセットにはラベルの不整合や構造的詳細が不十分なサンプルが含まれており、最適な下流性能をもたらす。
これらの問題に対処するために,事前に訓練された検出器を明示的に利用し,異常な合成サンプルを識別・精錬し,ラベルの整合性を確保し,画像品質を向上させるための検出器誘導型データセット蒸留フレームワークを提案する。
具体的には、ラベルミスマッチまたは低い分類信頼を示す異常な画像を特定するために、元のデータセットでトレーニングされた検出器モデルを用いる。
各欠陥画像に対して、対応する画像プロトタイプとラベルに条件付き事前学習拡散モデルを用いて複数の候補を生成する。
最適候補は、検出器の信頼性スコアと既存の有資格合成サンプルとの相違を共同で考慮し、ラベル精度とクラス内多様性を両立させることによって選択される。
実験結果から,提案手法は高精細度で高精細度の代表像を合成し,評価セットの最先端性能を実現することができることがわかった。
関連論文リスト
- Enhancing Diffusion-based Dataset Distillation via Adversary-Guided Curriculum Sampling [22.21686398518648]
Adversary-Guided Curriculum Smpling (ACS) は、蒸留データセットを複数のキュリキュラに分割する。
ACSは、逆損失による拡散サンプリングプロセスをガイドし、サンプル画像に基づいて訓練された判別器に挑戦する。
ACSはImagewoofで4.1%、ImageNet-1kで2.1%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-08-02T08:48:32Z) - DiffDoctor: Diagnosing Image Diffusion Models Before Treating [57.82359018425674]
DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。
我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。
次に、学習したアーティファクト検出器が第2段階に関与し、ピクセルレベルのフィードバックを提供することで拡散モデルを最適化する。
論文 参考訳(メタデータ) (2025-01-21T18:56:41Z) - A Bias-Free Training Paradigm for More General AI-generated Image Detection [15.421102443599773]
良く設計された法医学的検知器は、データバイアスを反映するのではなく、生成物固有のアーティファクトを検出する必要がある。
本稿では,実画像から偽画像を生成する,バイアスのない学習パラダイムであるB-Freeを提案する。
我々は,最先端検出器の一般化とロバスト性の両方において有意な改善が認められた。
論文 参考訳(メタデータ) (2024-12-23T15:54:32Z) - Heavy Labels Out! Dataset Distillation with Label Space Lightening [69.67681224137561]
HeLlOは、合成画像から直接合成ラベルをオンラインで生成できる効果的な画像-ラベルプロジェクタを目指している。
ソフトラベルの完全なセットに必要な元のストレージの0.003%しか必要とせず、大規模データセット上での現在の最先端データセット蒸留法と同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2024-08-15T15:08:58Z) - Visual Car Brand Classification by Implementing a Synthetic Image Dataset Creation Pipeline [3.524869467682149]
安定拡散を用いた合成画像データセットの自動生成パイプラインを提案する。
YOLOv8を用いて自動境界ボックス検出と合成画像の品質評価を行う。
論文 参考訳(メタデータ) (2024-06-03T07:44:08Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Model Selection of Anomaly Detectors in the Absence of Labeled Validation Data [18.233908098602114]
本稿では,画像に基づく異常検出をラベル付き検証データなしで選択するフレームワークSWSAを提案する。
ラベル付き検証データを集める代わりに、トレーニングや微調整なしに合成異常を生成する。
我々の合成異常は、モデル選択のための検証フレームワークを構成する検出タスクを作成するために使用される。
論文 参考訳(メタデータ) (2023-10-16T14:42:22Z) - Synthetic Augmentation with Large-scale Unconditional Pre-training [4.162192894410251]
アノテーション付きデータへの依存性を低減するため,HistoDiffusionという合成拡張手法を提案する。
HistoDiffusionは、大規模にラベル付けされていないデータセットで事前トレーニングし、その後、拡張トレーニングのために小さなラベル付きデータセットに適用することができる。
本手法は,3つの病理組織学的データセットを事前学習し,大腸癌の病理組織学的データセット(CRC)を事前学習データセットから除外して評価する。
論文 参考訳(メタデータ) (2023-08-08T03:34:04Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z) - Semi-supervised Salient Object Detection with Effective Confidence
Estimation [35.0990691497574]
本研究では,少数のラベル付きサンプルと多数のラベル付きサンプルにアクセス可能な半教師付きサルエント物体検出法について検討した。
本研究では,条件付きエネルギーベースモデルの潜伏変数を用いて,人体給与ラベルの性質をモデル化する。
ラベル付きサンプルは1/16に過ぎず,最先端の完全教師付きモデルと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2021-12-28T07:14:48Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Weakly Supervised-Based Oversampling for High Imbalance and High
Dimensionality Data Classification [2.9283685972609494]
オーバーサンプリングは、不均衡な分類を解決する効果的な方法である。
合成サンプルの不正確なラベルは、データセットの分布を歪ませる。
本稿では,合成試料の不正確なラベル付けを扱うために,弱教師付き学習を導入する。
論文 参考訳(メタデータ) (2020-09-29T15:26:34Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。