論文の概要: Information-Guided Diffusion Sampling for Dataset Distillation
- arxiv url: http://arxiv.org/abs/2507.04619v1
- Date: Mon, 07 Jul 2025 02:27:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.25728
- Title: Information-Guided Diffusion Sampling for Dataset Distillation
- Title(参考訳): データセット蒸留のための情報誘導拡散サンプリング
- Authors: Linfeng Ye, Shayan Mohajer Hamidi, Guang Li, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis,
- Abstract要約: 拡散モデル(DM)はこのタスクを約束しているが、低画像/クラス(IPC)設定で苦労している。
蒸留データセットが保持しなければならない2つの重要な種類の情報を特定する。
Tiny ImageNetおよびImageNetサブセットの実験では、情報誘導拡散サンプリング(IGDS)が既存の手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 44.216998537570866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation aims to create a compact dataset that retains essential information while maintaining model performance. Diffusion models (DMs) have shown promise for this task but struggle in low images-per-class (IPC) settings, where generated samples lack diversity. In this paper, we address this issue from an information-theoretic perspective by identifying two key types of information that a distilled dataset must preserve: ($i$) prototype information $\mathrm{I}(X;Y)$, which captures label-relevant features; and ($ii$) contextual information $\mathrm{H}(X | Y)$, which preserves intra-class variability. Here, $(X,Y)$ represents the pair of random variables corresponding to the input data and its ground truth label, respectively. Observing that the required contextual information scales with IPC, we propose maximizing $\mathrm{I}(X;Y) + \beta \mathrm{H}(X | Y)$ during the DM sampling process, where $\beta$ is IPC-dependent. Since directly computing $\mathrm{I}(X;Y)$ and $\mathrm{H}(X | Y)$ is intractable, we develop variational estimations to tightly lower-bound these quantities via a data-driven approach. Our approach, information-guided diffusion sampling (IGDS), seamlessly integrates with diffusion models and improves dataset distillation across all IPC settings. Experiments on Tiny ImageNet and ImageNet subsets show that IGDS significantly outperforms existing methods, particularly in low-IPC regimes. The code will be released upon acceptance.
- Abstract(参考訳): データセットの蒸留は、モデル性能を維持しながら重要な情報を保持するコンパクトなデータセットを作成することを目的としている。
拡散モデル(DM)は、このタスクを約束しているが、生成したサンプルが多様性に欠ける低画像/クラス(IPC)設定で苦労している。
本稿では,この課題を,蒸留データセットが保持しなければならない2つの重要な情報タイプ($i$)のプロトタイプ情報$\mathrm{I}(X;Y)$,コンテキスト情報$\mathrm{H}(X |Y)$,クラス内の変動性を保持する$$$i$)を特定し,情報理論の観点から解決する。
ここで、$(X,Y)$は入力データに対応する確率変数のペアとその基底真理ラベルを表す。
所要のコンテキスト情報がIPCでスケールすることを確認すると、DMサンプリングプロセス中に$\mathrm{I}(X;Y) + \beta \mathrm{H}(X | Y)$を最大化する。
直接計算する $\mathrm{I}(X;Y)$ と $\mathrm{H}(X | Y)$ は難解であるため、データ駆動のアプローチによりこれらの量を厳格に下限に下げるための変分推定を開発する。
我々のアプローチである情報誘導拡散サンプリング(IGDS)は、拡散モデルとシームレスに統合し、すべてのIPC設定におけるデータセットの蒸留を改善する。
Tiny ImageNetとImageNetのサブセットの実験では、IGDSは既存のメソッド、特に低IPCレギュレーションにおいて著しく優れていた。
コードは受理時にリリースされます。
関連論文リスト
- Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization [49.2338910653152]
VLM(Vision-Constrained Model)は、ラベル付きデータが最小限に抑えられたリッチテキスト情報を活用することで、様々なタスクで顕著な成功を収めた。
知識蒸留(KD)は、この問題に対して確立された解決策を提供するが、近年のVLMからのKDアプローチでは、多段階のトレーニングや追加のチューニングがしばしば行われている。
本稿では,VLMの知識を,半言語設定でコンパクトなタスク固有モデルに伝達する,シンプルで効果的なKDフレームワークであるmathbftextttDHO$を提案する。
論文 参考訳(メタデータ) (2025-05-12T15:39:51Z) - Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しいパラダイムを提案する。
提案手法は任意の誤差で理論上真の条件分布を復元可能であることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - Local Flow Matching Generative Models [19.859984725284896]
局所フローマッチング(Local Flow Matching)は、フローベース生成モデルに基づく密度推定のための計算フレームワークである。
$textttLFM$はシミュレーション不要のスキームを採用し、フローマッチングサブモデルのシーケンスを漸進的に学習する。
FMと比較して, $textttLFM$ のトレーニング効率と競争的生成性能の改善を実証した。
論文 参考訳(メタデータ) (2024-10-03T14:53:10Z) - Distributional Dataset Distillation with Subtask Decomposition [18.288856447840303]
本稿では,TinyImageNet と ImageNet-1K のデータセットに対して,最新の結果が得られることを示す。
具体的には、クラス毎に2つのイメージのストレージ予算の下で、ImageNet-1Kで6.9%の先行技術より優れています。
論文 参考訳(メタデータ) (2024-03-01T21:49:34Z) - Variance Alignment Score: A Simple But Tough-to-Beat Data Selection
Method for Multimodal Contrastive Learning [17.40655778450583]
本稿では、Sigma_texttest, Sigma_irangle$という形式を持つVariance Alignment Score(VAS)という原則付き計量を提案する。
VASとCLIPのスコアを合わせると、ノイズの多いデータセットDataCompの38評価セットに1.3%、高品質なデータセットCC12MのVTABに2.5%の差でベースラインを上回ります。
論文 参考訳(メタデータ) (2024-02-03T06:29:04Z) - DatasetEquity: Are All Samples Created Equal? In The Quest For Equity
Within Datasets [4.833815605196965]
本稿では,機械学習におけるデータ不均衡に対処する新しい手法を提案する。
深い知覚埋め込みとクラスタリングを用いて、画像の外観に基づいてサンプル確率を計算する。
次に、これらの可能性を使って、提案された$bf Generalized Focal Loss$関数で、トレーニング中にサンプルを異なる重さで測定する。
論文 参考訳(メタデータ) (2023-08-19T02:11:49Z) - Understanding Dataset Difficulty with $\mathcal{V}$-Usable Information [67.25713071340518]
データセットの難しさを推定するには、通常、最先端のモデルを人間と比較する。
我々は$mathcalV$-$textitusable情報がないとしてデータセットの難しさを補っている。
また、個々のインスタンスの難易度を測定するために、$textitpointwise $mathcalV$-information$ (PVI)を導入します。
論文 参考訳(メタデータ) (2021-10-16T00:21:42Z) - On the Difference Between the Information Bottleneck and the Deep
Information Bottleneck [81.89141311906552]
本稿では,Deep Variational Information Bottleneckとその導出に必要な仮定について再考する。
後者のマルコフ連鎖のみを満たすべき$I(T;Y)$に対して下界を最適化することで、この制限を回避する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。