論文の概要: Distilling Datasets Into Less Than One Image
- arxiv url: http://arxiv.org/abs/2403.12040v1
- Date: Mon, 18 Mar 2024 17:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 18:51:33.927376
- Title: Distilling Datasets Into Less Than One Image
- Title(参考訳): 1枚以下の画像にデータセットを蒸留する
- Authors: Asaf Shul, Eliahu Horwitz, Yedid Hoshen,
- Abstract要約: データセットの蒸留の境界を押し、データセットをクラスごとの画像以下に圧縮する。
本手法は, CIFAR-10, CIFAR-100, CUB200に対して, 0.3画像/クラスで新たな最先端性能を実現する。
- 参考スコア(独自算出の注目度): 39.08927346274156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation aims to compress a dataset into a much smaller one so that a model trained on the distilled dataset achieves high accuracy. Current methods frame this as maximizing the distilled classification accuracy for a budget of K distilled images-per-class, where K is a positive integer. In this paper, we push the boundaries of dataset distillation, compressing the dataset into less than an image-per-class. It is important to realize that the meaningful quantity is not the number of distilled images-per-class but the number of distilled pixels-per-dataset. We therefore, propose Poster Dataset Distillation (PoDD), a new approach that distills the entire original dataset into a single poster. The poster approach motivates new technical solutions for creating training images and learnable labels. Our method can achieve comparable or better performance with less than an image-per-class compared to existing methods that use one image-per-class. Specifically, our method establishes a new state-of-the-art performance on CIFAR-10, CIFAR-100, and CUB200 using as little as 0.3 images-per-class.
- Abstract(参考訳): データセット蒸留は、データセットをはるかに小さなデータセットに圧縮することで、蒸留データセットでトレーニングされたモデルが高い精度を達成することを目的としている。
現在の方法では、K を正の整数とするK 蒸留画像の予算に対する蒸留分類精度を最大化するものである。
本稿では,データセットの蒸留の境界を1クラス当たりのイメージ以下に圧縮する。
意味のある量は、クラス当たりの蒸留画像数ではなく、データ当たりの蒸留画素数であることに気付くことが重要である。
そこで,Poster Dataset Distillation (PoDD)を提案する。
ポスターアプローチは、トレーニングイメージと学習可能なラベルを作成するための新しい技術ソリューションを動機付けている。
本手法は,従来の1つのイメージ・パー・クラスを用いた手法と比較して,1クラス当たりのイメージ・パー・クラス以下で同等あるいは優れた性能を実現することができる。
具体的には, CIFAR-10, CIFAR-100, CUB200に対して, 0.3画像単位の精度で新しい最先端性能を実現する。
関連論文リスト
- Generative Dataset Distillation Based on Diffusion Model [45.305885410046116]
安定拡散に基づく新しい生成データセット蒸留法を提案する。
具体的には,SDXL-Turboモデルを用いて高速で画質の高い画像を生成する。
我々はECCV 2024 DD Challengeで3位となった。
論文 参考訳(メタデータ) (2024-08-16T08:52:02Z) - Low-Rank Similarity Mining for Multimodal Dataset Distillation [50.45577048854653]
マルチモーダルデータセット蒸留におけるローランド類似性マイニング(LoRS)を提案する。
LoRSは、画像とテキストのペアと基底真理類似性行列を蒸留し、低ランクの分解を効率とスケーラビリティに活用する。
論文 参考訳(メタデータ) (2024-06-06T07:05:20Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - Vision-Language Dataset Distillation [26.886260846439612]
トラジェクトリマッチングのアイデアに基づいて,最初の視覚言語によるデータセット蒸留法を設計する。
重要な課題は、ビジョン言語データセットが独立したクラスのセットを持っていないことだ。
提案手法は, コントラスト式で画像とテキストのペアを共同蒸留する。
論文 参考訳(メタデータ) (2023-08-15T03:22:40Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - DiM: Distilling Dataset into Generative Model [42.32433831074992]
そこで我々は,大列車のtextbfinto 生成textbfModels の textbfDistill 情報に対する新しい蒸留手法を提案する。
蒸留段階では,実画像と生成画像のモデルプールによって予測されるロジットの差を最小限に抑える。
展開段階では、生成モデルはハエのランダムノイズから様々なトレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2023-03-08T16:48:24Z) - Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory [66.035487142452]
MTT(trajectory-matching-based method)は,ImageNet-1Kなどの大規模データセットに拡張可能であることを示す。
メモリフットプリントの6倍の削減を図り,MTTをImageNet-1Kにシームレスにスケールすることができる。
1つのGPU上で、ImageNet-1K上で50 IPC(Image Per Class)までスケールアップできる。
論文 参考訳(メタデータ) (2022-11-19T04:46:03Z) - Large-Scale Generative Data-Free Distillation [17.510996270055184]
本質的な正規化層の統計を利用して生成画像モデルを訓練する新しい方法を提案する。
提案手法は, CIFAR-10とCIFAR-100のデータフリー蒸留性能を95.02%, 77.02%に向上させる。
ImageNetデータセットにスケールすることができますが、私たちの知る限り、データフリー環境で生成モデルを使用することは一度もありません。
論文 参考訳(メタデータ) (2020-12-10T10:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。