論文の概要: Distributional Dataset Distillation with Subtask Decomposition
- arxiv url: http://arxiv.org/abs/2403.00999v1
- Date: Fri, 1 Mar 2024 21:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:36:27.525552
- Title: Distributional Dataset Distillation with Subtask Decomposition
- Title(参考訳): サブタスク分解を伴う分散データセット蒸留
- Authors: Tian Qin, Zhiwei Deng, David Alvarez-Melis
- Abstract要約: 本稿では,TinyImageNet と ImageNet-1K のデータセットに対して,最新の結果が得られることを示す。
具体的には、クラス毎に2つのイメージのストレージ予算の下で、ImageNet-1Kで6.9%の先行技術より優れています。
- 参考スコア(独自算出の注目度): 18.288856447840303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What does a neural network learn when training from a task-specific dataset?
Synthesizing this knowledge is the central idea behind Dataset Distillation,
which recent work has shown can be used to compress large datasets into a small
set of input-label pairs ($\textit{prototypes}$) that capture essential aspects
of the original dataset. In this paper, we make the key observation that
existing methods distilling into explicit prototypes are very often suboptimal,
incurring in unexpected storage cost from distilled labels. In response, we
propose $\textit{Distributional Dataset Distillation}$ (D3), which encodes the
data using minimal sufficient per-class statistics and paired with a decoder,
we distill dataset into a compact distributional representation that is more
memory-efficient compared to prototype-based methods. To scale up the process
of learning these representations, we propose $\textit{Federated
distillation}$, which decomposes the dataset into subsets, distills them in
parallel using sub-task experts and then re-aggregates them. We thoroughly
evaluate our algorithm on a three-dimensional metric and show that our method
achieves state-of-the-art results on TinyImageNet and ImageNet-1K.
Specifically, we outperform the prior art by $6.9\%$ on ImageNet-1K under the
storage budget of 2 images per class.
- Abstract(参考訳): タスク固有のデータセットからトレーニングすると、ニューラルネットワークは何を学ぶのか?
この知識を合成することは、データセット蒸留(Dataset Distillation)の背景にある中心的なアイデアであり、これは、大規模なデータセットを小さなインプットラベルのペア($\textit{prototypes}$)に圧縮するために使用することができる。
本稿では, 既存の試薬を蒸留する方法は, 蒸留ラベルから予期せぬ貯蔵コストを発生させるため, しばしば準最適であることを示す。
そこで我々は,最小限のクラスごとの統計量を用いてデータをエンコードし,デコーダと組み合わせてデータセットをコンパクトな分散表現に変換する$\textit{Distributional Dataset Distillation}$ (D3)を提案する。
これらの表現を学習するプロセスをスケールアップするために、データセットをサブセットに分解し、サブタスクの専門家を使って並列に蒸留し、それらを再集約する$\textit{Federated distillation}$を提案する。
提案手法は,TinyImageNet と ImageNet-1K の3次元計測値を用いて精度よく評価し,解析結果が得られたことを示す。
具体的には、クラスの2つのイメージのストレージ予算の下で、ImageNet-1Kで6.9\%の先行技術より優れています。
関連論文リスト
- Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - Dataset Distillation in Large Data Era [31.758821805424393]
従来の224$times$224の入力解像度で、フルイメージNet-1K/21Kなどの大規模データセットを蒸留する方法を示す。
提案手法は,ImageNet-1K/21Kにおいて,現在の最先端技術よりも4%以上精度が高いことを示す。
論文 参考訳(メタデータ) (2023-11-30T18:59:56Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - DatasetEquity: Are All Samples Created Equal? In The Quest For Equity
Within Datasets [4.833815605196965]
本稿では,機械学習におけるデータ不均衡に対処する新しい手法を提案する。
深い知覚埋め込みとクラスタリングを用いて、画像の外観に基づいてサンプル確率を計算する。
次に、これらの可能性を使って、提案された$bf Generalized Focal Loss$関数で、トレーニング中にサンプルを異なる重さで測定する。
論文 参考訳(メタデータ) (2023-08-19T02:11:49Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - DiM: Distilling Dataset into Generative Model [42.32433831074992]
そこで我々は,大列車のtextbfinto 生成textbfModels の textbfDistill 情報に対する新しい蒸留手法を提案する。
蒸留段階では,実画像と生成画像のモデルプールによって予測されるロジットの差を最小限に抑える。
展開段階では、生成モデルはハエのランダムノイズから様々なトレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2023-03-08T16:48:24Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Primitive3D: 3D Object Dataset Synthesis from Randomly Assembled
Primitives [44.03149443379618]
アノテーションで大量の3Dオブジェクトを自動生成するコスト効率のよい手法を提案する。
これらのオブジェクトはプリミティブから派生した部分ラベルで自動アノテーションされる。
生成したデータセットに対する学習のオーバーヘッドが大きいことを考慮し,データセットの蒸留戦略を提案する。
論文 参考訳(メタデータ) (2022-05-25T10:07:07Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。