論文の概要: CONCORD: Concept-Informed Diffusion for Dataset Distillation
- arxiv url: http://arxiv.org/abs/2505.18358v1
- Date: Fri, 23 May 2025 20:39:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.362415
- Title: CONCORD: Concept-Informed Diffusion for Dataset Distillation
- Title(参考訳): CONCORD:データセット蒸留のための概念インフォームド拡散
- Authors: Jianyang Gu, Haonan Wang, Ruoxi Jia, Saeed Vahidian, Vyacheslav Kungurtsev, Wei Jiang, Yiran Chen,
- Abstract要約: 本研究では,データセット蒸留のためのconcept-Informed Diffusion (CONCORD)を提案する。
提案手法は, 蒸留画像生成の可制御性と解釈性の両方を著しく向上させる。
画像Net-1Kとそのサブセットの最先端性能を達成し,CONCORDの有効性を実証する。
- 参考スコア(独自算出の注目度): 29.092857460373278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation (DD) has witnessed significant progress in creating small datasets that encapsulate rich information from large original ones. Particularly, methods based on generative priors show promising performance, while maintaining computational efficiency and cross-architecture generalization. However, the generation process lacks explicit controllability for each sample. Previous distillation methods primarily match the real distribution from the perspective of the entire dataset, whereas overlooking concept completeness at the instance level. The missing or incorrectly represented object details cannot be efficiently compensated due to the constrained sample amount typical in DD settings. To this end, we propose incorporating the concept understanding of large language models (LLMs) to perform Concept-Informed Diffusion (CONCORD) for dataset distillation. Specifically, distinguishable and fine-grained concepts are retrieved based on category labels to inform the denoising process and refine essential object details. By integrating these concepts, the proposed method significantly enhances both the controllability and interpretability of the distilled image generation, without relying on pre-trained classifiers. We demonstrate the efficacy of CONCORD by achieving state-of-the-art performance on ImageNet-1K and its subsets. The code implementation is released in https://github.com/vimar-gu/CONCORD.
- Abstract(参考訳): データセット蒸留(DD)は、大規模なオリジナルデータから豊富な情報をカプセル化する小さなデータセットの作成において大きな進歩をみせた。
特に、生成前の手法は、計算効率とクロスアーキテクチャの一般化を維持しつつ、有望な性能を示す。
しかし、生成プロセスは各サンプルに対して明確な制御性に欠ける。
従来の蒸留法は主にデータセット全体の観点からの実際の分布と一致するが、インスタンスレベルでは概念の完全性を見落としている。
DD設定で典型的な制限されたサンプル量のために、不足または誤って表現されたオブジェクトの詳細を効率的に補償することはできない。
そこで本研究では,大言語モデル(LLM)の概念理解を取り入れて,データセット蒸留のためのconcept-Informed Diffusion(CONCORD)を提案する。
具体的には、カテゴリーラベルに基づいて、識別可能できめ細かな概念を検索し、デノナイズプロセスに通知し、本質的なオブジェクトの詳細を精査する。
提案手法は, これらの概念を統合することにより, 事前学習した分類器を使わずに, 蒸留画像生成の可制御性と解釈性の両方を著しく向上させる。
画像Net-1Kとそのサブセットの最先端性能を達成し,CONCORDの有効性を実証する。
コード実装はhttps://github.com/vimar-gu/CONCORDで公開されている。
関連論文リスト
- Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - Efficient Dataset Distillation via Diffusion-Driven Patch Selection for Improved Generalization [34.53986517177061]
本稿では, 既存の拡散式蒸留法に対する新しい枠組みを提案し, 生成ではなく拡散モデルを用いて選択する。
提案手法は,入力画像とテキストプロンプトに基づいて拡散モデルから発生するノイズを予測し,各ペアの損失を算出する。
この合理化フレームワークは単一段階の蒸留プロセスを実現するとともに,我々の手法が様々なメトリクスにわたって最先端の手法より優れていることを示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-12-13T08:34:46Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文 参考訳(メタデータ) (2022-10-30T08:36:19Z) - Inducing Semantic Grouping of Latent Concepts for Explanations: An
Ante-Hoc Approach [18.170504027784183]
我々は,潜伏状態を利用してモデルの異なる部分を適切に修正することにより,より良い説明が得られ,予測性能が向上することを示した。
また,2つの異なる自己スーパービジョン技術を用いて,考察対象の自己スーパービジョンのタイプに関連する意味ある概念を抽出する手法を提案した。
論文 参考訳(メタデータ) (2021-08-25T07:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。