論文の概要: Data-Efficient Generation for Dataset Distillation
- arxiv url: http://arxiv.org/abs/2409.03929v1
- Date: Thu, 5 Sep 2024 22:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 17:20:24.124161
- Title: Data-Efficient Generation for Dataset Distillation
- Title(参考訳): データセット蒸留のためのデータ効率の良い生成法
- Authors: Zhe Li, Weitong Zhang, Sarah Cechnicka, Bernhard Kainz,
- Abstract要約: ラベル付きリアルな合成画像を生成する条件付き潜時拡散モデルを訓練する。
我々は,少数の合成画像のみを用いてモデルを効果的に訓練し,大規模な実検体で評価できることを実証した。
- 参考スコア(独自算出の注目度): 12.106527496044473
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While deep learning techniques have proven successful in image-related tasks, the exponentially increased data storage and computation costs become a significant challenge. Dataset distillation addresses these challenges by synthesizing only a few images for each class that encapsulate all essential information. Most current methods focus on matching. The problems lie in the synthetic images not being human-readable and the dataset performance being insufficient for downstream learning tasks. Moreover, the distillation time can quickly get out of bounds when the number of synthetic images per class increases even slightly. To address this, we train a class conditional latent diffusion model capable of generating realistic synthetic images with labels. The sampling time can be reduced to several tens of images per seconds. We demonstrate that models can be effectively trained using only a small set of synthetic images and evaluated on a large real test set. Our approach achieved rank \(1\) in The First Dataset Distillation Challenge at ECCV 2024 on the CIFAR100 and TinyImageNet datasets.
- Abstract(参考訳): ディープラーニング技術は画像関連タスクで成功したが、指数関数的に増加するデータストレージと計算コストは大きな課題となっている。
データセット蒸留はこれらの課題に対処し、すべての必須情報をカプセル化しているクラスごとにほんの数枚の画像だけを合成する。
現在の手法はマッチングに重点を置いている。
問題は、合成画像が可読性がなく、データセットのパフォーマンスが下流の学習タスクには不十分であることだ。
さらに、クラスごとの合成画像の数がさらに増加すると、蒸留時間はすぐに限界から抜け出すことができる。
そこで我々は,ラベル付きリアルな合成画像を生成することができるクラス条件付き潜時拡散モデルを訓練する。
サンプリング時間は秒間数十の画像に短縮できる。
我々は,少数の合成画像のみを用いてモデルを効果的に訓練し,大規模な実検体で評価できることを実証した。
CIFAR100およびTinyImageNetデータセット上で,ECCV 2024における第1回データセット蒸留チャレンジにおいて,そのランクを(1\)とした。
関連論文リスト
- Large-Scale Data-Free Knowledge Distillation for ImageNet via Multi-Resolution Data Generation [53.95204595640208]
Data-Free Knowledge Distillation (DFKD)は、教師モデルから生徒モデルへの知識伝達を可能にする高度な技術である。
従来のアプローチでは、実際の画像の情報を活用することなく、高解像度で合成画像を生成してきた。
MUSEは、クラスアクティベーションマップ(CAM)を使用して、低い解像度で画像を生成し、生成された画像が重要なクラス固有の特徴を保持することを保証する。
論文 参考訳(メタデータ) (2024-11-26T02:23:31Z) - Scaling Backwards: Minimal Synthetic Pre-training? [52.78699562832907]
予備学習は最小限の合成画像でも有効であることを示す。
その結果,1kから1kへの合成画像の大幅な削減は,事前学習性能の向上につながることが判明した。
提案手法は,合成画像から実画像へ拡張し,単一の実画像が類似した事前学習効果を示すかどうかを確認する。
論文 参考訳(メタデータ) (2024-08-01T16:20:02Z) - Zero-Shot Distillation for Image Encoders: How to Make Effective Use of Synthetic Data [40.37396692278567]
我々は、効率的なゼロショット分類のための画像エンコーダの小さな変種を訓練することに重点を置いている。
合成データの使用は、より大きな教師の蒸留表現において有望であることが示され、強い数発のプローブ性能と線形プローブ性能が得られた。
対照的な損失を使用する場合、真のゼロショット設定では、このアプローチが驚くほど失敗することがわかった。
論文 参考訳(メタデータ) (2024-04-25T14:24:41Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - PennSyn2Real: Training Object Recognition Models without Human Labeling [12.923677573437699]
我々はPennSyn2Realを提案する。20種類以上のマイクロエアロビー(MAV)の10万以上の4K画像からなる合成データセットである。
このデータセットは、MAV検出や分類などのハイレベルコンピュータビジョンタスクのための任意の数のトレーニングイメージを生成するために使用することができる。
このフレームワークを用いて生成された合成データは,検出やセグメンテーションといった一般的なオブジェクト認識タスクに対して,CNNモデルをトレーニングするために直接利用できることを示す。
論文 参考訳(メタデータ) (2020-09-22T02:53:40Z) - Syn2Real Transfer Learning for Image Deraining using Gaussian Processes [92.15895515035795]
CNNに基づく画像デライニング手法は,再現誤差や視覚的品質の点で優れた性能を発揮している。
実世界の完全ラベル付き画像デライニングデータセットを取得する上での課題により、既存の手法は合成されたデータのみに基づいて訓練される。
本稿では,ガウス過程に基づく半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T00:33:18Z) - Can Synthetic Data Improve Object Detection Results for Remote Sensing
Images? [15.466412729455874]
本稿では,リモートセンシング画像航空機検出の性能向上のために,広域分布のリアルな合成データの利用を提案する。
レンダリング中に、インスタンスのサイズや背景画像のクラスなど、パラメータをランダムに設定します。
合成画像をよりリアルにするために,CycleGANと実際の未ラベル画像を用いて,画素レベルで合成画像を洗練する。
論文 参考訳(メタデータ) (2020-06-09T02:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。