論文の概要: Pool-Select-Refine: Allocation-Aware Generative Dataset Distillation with Soft-Label-Guided Latent Refinement
- arxiv url: http://arxiv.org/abs/2606.01920v1
- Date: Mon, 01 Jun 2026 08:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.63151
- Title: Pool-Select-Refine: Allocation-Aware Generative Dataset Distillation with Soft-Label-Guided Latent Refinement
- Title(参考訳): ソフトラベル誘導潜水精製による転位型生成データセット蒸留法
- Authors: Wenmin Li, Shunsuke Sakai, Zhongkai Zhao, Tatsuhito Hasegawa,
- Abstract要約: 本稿では,アロケーションアウェアな生成データセット蒸留のための2段階フレームワークを提案する。
まず、オーバーコンプリート候補プールを構築し、目標予算の下でコンパクトなサブセットを選択する。
第2に,教師モデルから抽出したソフトラベル指導を用いて,潜時空間で選択したサンプルを精査する。
- 参考スコア(独自算出の注目度): 2.407317612563673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based dataset distillation has recently emerged as a promising paradigm for condensing large-scale datasets into compact synthetic sets. By leveraging pretrained generative priors, these methods can produce realistic class-conditional samples more efficiently than traditional matching-based approaches. However, most existing diffusion-based methods still adopt a rigid ``Generate-and-Use'' strategy, where the generated samples are directly treated as the final distilled set under a fixed images-per-class budget. Such a design tightly couples candidate generation with final budget allocation, which may result in redundant waste of the limited budget or insufficiently informative samples. In this paper, we propose ``Pool-Select-Refine'', a two-stage framework for allocation-aware generative dataset distillation. First, instead of directly using a fixed number of generated samples, we construct an over-complete candidate pool and select a compact subset under the target budget. Second, we refine the selected samples in latent space using soft-label supervision derived from the teacher model, improving semantic alignment while preserving the generative prior. This design explicitly decouples generation, selection, and refinement, enabling more effective use of the distillation budget. Experiments on large-scale and fine-grained image classification benchmarks show that the proposed framework delivers consistent gains over diffusion-based baselines. The results suggest that introducing a curation stage before refinement is a simple yet effective way to improve diffusion-based dataset distillation.
- Abstract(参考訳): 拡散に基づくデータセット蒸留は, 大規模データセットをコンパクトな合成集合に凝縮するための有望なパラダイムとして最近登場した。
これらの手法は、事前訓練された生成前の手法を利用することで、従来のマッチングに基づくアプローチよりもより効率的に、現実的なクラス条件サンプルを作成できる。
しかし, 既存の拡散法では「生成と利用」という厳密な戦略がまだ採用されており, 生成したサンプルは, 固定画像単位の予算で最終蒸留セットとして直接処理される。
このような設計は、最終的な予算配分を伴う候補世代を緊密に結合し、限られた予算の冗長な無駄や不十分な情報的サンプルをもたらす可能性がある。
本稿では,アロケーションアウェアな生成データセット蒸留のための2段階フレームワークである ‘Pool-Select-Refine' を提案する。
まず, 一定の数のサンプルを直接使用する代わりに, オーバーコンプリート候補プールを構築し, 目標予算の下でコンパクトなサブセットを選択する。
第2に,教師モデルから抽出したソフトラベルの指導を用いて,潜在空間で選択したサンプルを精査し,生成前の保存と意味的アライメントを改善した。
この設計は、生成、選択、精製を明示的に分離し、蒸留予算をより効果的に利用できるようにする。
大規模かつきめ細かい画像分類ベンチマーク実験により,提案フレームワークは拡散ベースラインよりも一貫した利得が得られることが示された。
以上の結果から, 改質前のキュレーション段階の導入は, 拡散式データセット蒸留を改善するための簡便かつ効果的な方法であることが示唆された。
関連論文リスト
- SAS: Semantic-aware Sampling for Generative Dataset Distillation [55.27114962330541]
本稿では,コントラスト言語-画像事前学習(CLIP)をポストサンプリングのセマンティクスとして活用することで,データセット蒸留のセマンティック・アウェア・パースペクティブを導入する。
我々のゴールは、コンパクトであるだけでなく、意味的にクラス差別的で多様である蒸留データセットを得ることです。
論文 参考訳(メタデータ) (2026-05-18T08:05:46Z) - Path-Guided Flow Matching for Dataset Distillation [9.761850986508895]
本稿では, 数ステップでODEを解くことで, 高速な決定論的合成を可能にする, 生成蒸留のための最初のフローマッチングに基づくフレームワークを提案する。
本研究では, ODE-consistent path control のための連続経路-プロトタイプ誘導アルゴリズムを開発し, トラジェクトリが割り当てられたプロトタイプに確実に着地できるようにする。
論文 参考訳(メタデータ) (2026-02-05T12:52:32Z) - Preference Trajectory Modeling via Flow Matching for Sequential Recommendation [50.077447974294586]
シーケンスレコメンデーションは、履歴的なインタラクションシーケンスに基づいて、各ユーザの次の項目を予測する。
FlowRecはシンプルだが効果的なシーケンシャルレコメンデーションフレームワークである。
我々は,ガウス雑音に代えてパーソナライズされた行動に基づく事前分布を構築し,ユーザの嗜好軌跡をモデル化するためのベクトル場を学習する。
論文 参考訳(メタデータ) (2025-08-25T02:55:42Z) - Task-Specific Generative Dataset Distillation with Difficulty-Guided Sampling [31.51048512214796]
データセット蒸留は、オリジナルのデータセットに匹敵するパフォーマンスを達成できるコンパクトで高品質な合成データセットを生成することを目的としている。
本稿では, 目標課題の要件をよりよく検討する難易度の概念を取り入れた, 生成データセット蒸留のためのタスク固有サンプリング戦略を提案する。
実験の結果,提案手法の有効性を実証し,他の下流タスクの性能向上の可能性を示した。
論文 参考訳(メタデータ) (2025-07-04T06:38:02Z) - Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。
本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。
提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文 参考訳(メタデータ) (2025-01-08T00:43:31Z) - Heavy Labels Out! Dataset Distillation with Label Space Lightening [69.67681224137561]
HeLlOは、合成画像から直接合成ラベルをオンラインで生成できる効果的な画像-ラベルプロジェクタを目指している。
ソフトラベルの完全なセットに必要な元のストレージの0.003%しか必要とせず、大規模データセット上での現在の最先端データセット蒸留法と同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2024-08-15T15:08:58Z) - Optimal Budgeted Rejection Sampling for Generative Models [54.050498411883495]
判別器を用いた生成モデルの性能向上のために, 還元サンプリング法が提案されている。
提案手法は,まず,最適に最適である最適予算削減サンプリング方式を提案する。
第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2023-11-01T11:52:41Z) - DREAM: Efficient Dataset Distillation by Representative Matching [38.92087223000823]
textbfREpresenttextbfAtive textbfMatching (DREAM) による textbfDataset 蒸留と呼ばれる新しいマッチング手法を提案する。
DREAMは、一般的なデータセット蒸留フレームワークに簡単にプラグインでき、性能低下なしに蒸留イテレーションを8回以上減らすことができる。
論文 参考訳(メタデータ) (2023-02-28T08:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。