Fugu-MT 論文翻訳(概要): Distilling Datasets Into Less Than One Image

論文の概要: Distilling Datasets Into Less Than One Image

arxiv url: http://arxiv.org/abs/2403.12040v1
Date: Mon, 18 Mar 2024 17:59:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 18:51:33.927376
Title: Distilling Datasets Into Less Than One Image
Title（参考訳）: 1枚以下の画像にデータセットを蒸留する
Authors: Asaf Shul, Eliahu Horwitz, Yedid Hoshen,
Abstract要約: データセットの蒸留の境界を押し、データセットをクラスごとの画像以下に圧縮する。本手法は, CIFAR-10, CIFAR-100, CUB200に対して, 0.3画像/クラスで新たな最先端性能を実現する。
参考スコア（独自算出の注目度）: 39.08927346274156
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dataset distillation aims to compress a dataset into a much smaller one so that a model trained on the distilled dataset achieves high accuracy. Current methods frame this as maximizing the distilled classification accuracy for a budget of K distilled images-per-class, where K is a positive integer. In this paper, we push the boundaries of dataset distillation, compressing the dataset into less than an image-per-class. It is important to realize that the meaningful quantity is not the number of distilled images-per-class but the number of distilled pixels-per-dataset. We therefore, propose Poster Dataset Distillation (PoDD), a new approach that distills the entire original dataset into a single poster. The poster approach motivates new technical solutions for creating training images and learnable labels. Our method can achieve comparable or better performance with less than an image-per-class compared to existing methods that use one image-per-class. Specifically, our method establishes a new state-of-the-art performance on CIFAR-10, CIFAR-100, and CUB200 using as little as 0.3 images-per-class.
Abstract（参考訳）: データセット蒸留は、データセットをはるかに小さなデータセットに圧縮することで、蒸留データセットでトレーニングされたモデルが高い精度を達成することを目的としている。現在の方法では、K を正の整数とするK 蒸留画像の予算に対する蒸留分類精度を最大化するものである。本稿では,データセットの蒸留の境界を1クラス当たりのイメージ以下に圧縮する。意味のある量は、クラス当たりの蒸留画像数ではなく、データ当たりの蒸留画素数であることに気付くことが重要である。そこで,Poster Dataset Distillation (PoDD)を提案する。ポスターアプローチは、トレーニングイメージと学習可能なラベルを作成するための新しい技術ソリューションを動機付けている。本手法は,従来の1つのイメージ・パー・クラスを用いた手法と比較して,1クラス当たりのイメージ・パー・クラス以下で同等あるいは優れた性能を実現することができる。具体的には, CIFAR-10, CIFAR-100, CUB200に対して, 0.3画像単位の精度で新しい最先端性能を実現する。

関連論文リスト

DD-Ranking: Rethinking the Evaluation of Dataset Distillation [223.28392857127733]
本稿では,統合評価フレームワークであるDD-Rankingと,異なる手法によって達成された真の性能改善を明らかにするための新しい総合評価指標を提案する。 DD-Rankingは、蒸留データセットの実際の情報強化に再焦点をあてることで、将来の研究の進展に対してより包括的で公正な評価基準を提供する。
論文参考訳（メタデータ） (2025-05-19T16:19:50Z)
Curriculum Coarse-to-Fine Selection for High-IPC Dataset Distillation [67.34754791044242]
効率的な高IPCデータセット蒸留のための新しいカリキュラム粗粒抽出法(CCFS)を提案する。 CCFSは、各カリキュラムの現在の合成データセットに基づいて、適切な実データを選択するために粗い戦略を採用している。
論文参考訳（メタデータ） (2025-03-24T16:47:40Z)
Rethinking Large-scale Dataset Compression: Shifting Focus From Labels to Images [60.42768987736088]
蒸留と刈り取りの両文献の方法論を公平に評価するベンチマークを導入する。我々のベンチマークでは、大規模データセットの主流データセット蒸留設定において、ランダムに選択されたサブセットでさえ驚くほどの競争性能を達成できることが示されている。我々は、画像データのみを活用することに焦点を当てた、Prune, Combine, Augment(PCA)と呼ばれるデータセット圧縮のための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-10T13:11:40Z)
Generative Dataset Distillation Based on Diffusion Model [45.305885410046116]
安定拡散に基づく新しい生成データセット蒸留法を提案する。具体的には,SDXL-Turboモデルを用いて高速で画質の高い画像を生成する。我々はECCV 2024 DD Challengeで3位となった。
論文参考訳（メタデータ） (2024-08-16T08:52:02Z)
Low-Rank Similarity Mining for Multimodal Dataset Distillation [50.45577048854653]
マルチモーダルデータセット蒸留におけるローランド類似性マイニング(LoRS)を提案する。 LoRSは、画像とテキストのペアと基底真理類似性行列を蒸留し、低ランクの分解を効率とスケーラビリティに活用する。
論文参考訳（メタデータ） (2024-06-06T07:05:20Z)
Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文参考訳（メタデータ） (2023-12-14T13:19:33Z)
Vision-Language Dataset Distillation [26.886260846439612]
トラジェクトリマッチングのアイデアに基づいて,最初の視覚言語によるデータセット蒸留法を設計する。重要な課題は、ビジョン言語データセットが独立したクラスのセットを持っていないことだ。提案手法は, コントラスト式で画像とテキストのペアを共同蒸留する。
論文参考訳（メタデータ） (2023-08-15T03:22:40Z)
Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。蒸留における因果関係から最も寄与した試料を見出した。
論文参考訳（メタデータ） (2023-05-28T06:53:41Z)
Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-05-02T17:59:31Z)
DiM: Distilling Dataset into Generative Model [42.32433831074992]
そこで我々は,大列車のtextbfinto 生成textbfModels の textbfDistill 情報に対する新しい蒸留手法を提案する。蒸留段階では,実画像と生成画像のモデルプールによって予測されるロジットの差を最小限に抑える。展開段階では、生成モデルはハエのランダムノイズから様々なトレーニングサンプルを合成する。
論文参考訳（メタデータ） (2023-03-08T16:48:24Z)
Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory [66.035487142452]
MTT(trajectory-matching-based method)は,ImageNet-1Kなどの大規模データセットに拡張可能であることを示す。メモリフットプリントの6倍の削減を図り,MTTをImageNet-1Kにシームレスにスケールすることができる。 1つのGPU上で、ImageNet-1K上で50 IPC(Image Per Class)までスケールアップできる。
論文参考訳（メタデータ） (2022-11-19T04:46:03Z)
Large-Scale Generative Data-Free Distillation [17.510996270055184]
本質的な正規化層の統計を利用して生成画像モデルを訓練する新しい方法を提案する。提案手法は, CIFAR-10とCIFAR-100のデータフリー蒸留性能を95.02%, 77.02%に向上させる。 ImageNetデータセットにスケールすることができますが、私たちの知る限り、データフリー環境で生成モデルを使用することは一度もありません。
論文参考訳（メタデータ） (2020-12-10T10:54:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。