論文の概要: Flexible Dataset Distillation: Learn Labels Instead of Images
- arxiv url: http://arxiv.org/abs/2006.08572v3
- Date: Sat, 12 Dec 2020 12:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 03:14:11.995014
- Title: Flexible Dataset Distillation: Learn Labels Instead of Images
- Title(参考訳): フレキシブルデータセット蒸留:画像の代わりにラベルを学ぶ
- Authors: Ondrej Bohdal, Yongxin Yang, Timothy Hospedales
- Abstract要約: 我々の新しいアルゴリズムでラベルを蒸留すると、以前の画像に基づく蒸留よりも良い結果が得られる。
従来のイメージベースによるデータセット蒸留法よりも効果的であることを示す。
- 参考スコア(独自算出の注目度): 44.73351338165214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of dataset distillation - creating a small set of
synthetic examples capable of training a good model. In particular, we study
the problem of label distillation - creating synthetic labels for a small set
of real images, and show it to be more effective than the prior image-based
approach to dataset distillation. Methodologically, we introduce a more robust
and flexible meta-learning algorithm for distillation, as well as an effective
first-order strategy based on convex optimization layers. Distilling labels
with our new algorithm leads to improved results over prior image-based
distillation. More importantly, it leads to clear improvements in flexibility
of the distilled dataset in terms of compatibility with off-the-shelf
optimizers and diverse neural architectures. Interestingly, label distillation
can also be applied across datasets, for example enabling learning Japanese
character recognition by training only on synthetically labeled English
letters.
- Abstract(参考訳): 我々はデータセット蒸留の問題を研究し、良いモデルを訓練できる少数の合成例を作成する。
特に,少量の実画像の合成ラベルを作成することによるラベル蒸留の問題点について検討し,従来の画像ベースによるデータセット蒸留手法よりも有効であることを示す。
提案手法では, より堅牢で柔軟な蒸留メタラーニングアルゴリズムと, 凸最適化層に基づく効率的な1次戦略を導入する。
新しいアルゴリズムでラベルを蒸留すると、以前の画像ベースの蒸留よりも結果が向上する。
さらに重要なのは、オフザシェルフオプティマイザと多様なニューラルアーキテクチャとの互換性の観点から、蒸留データセットの柔軟性が明確に向上することです。
興味深いことに、ラベル蒸留はデータセットにまたがって適用でき、例えば合成ラベル付き英語文字のみを訓練することで日本語文字認識を学べる。
関連論文リスト
- Label-Augmented Dataset Distillation [13.449340904911725]
ラベル増量によるデータセット蒸留を強化するため,ラベル増量データセット蒸留(LADD)を導入する。
LADDはそれぞれの合成画像をサブサンプリングし、リッチなセマンティクスをキャプチャするためにさらに高密度なラベルを生成する。
3つの高性能なデータセット蒸留アルゴリズムにより、LADDは平均14.9%の精度で著しく向上した。
論文 参考訳(メタデータ) (2024-09-24T16:54:22Z) - Heavy Labels Out! Dataset Distillation with Label Space Lightening [69.67681224137561]
HeLlOは、合成画像から直接合成ラベルをオンラインで生成できる効果的な画像-ラベルプロジェクタを目指している。
ソフトラベルの完全なセットに必要な元のストレージの0.003%しか必要とせず、大規模データセット上での現在の最先端データセット蒸留法と同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2024-08-15T15:08:58Z) - A Label is Worth a Thousand Images in Dataset Distillation [16.272675455429006]
データ$textitquality$は、機械学習モデルのパフォーマンスにおいて重要な要素である。
本研究では, 最先端蒸留法の性能を説明する主な要因は, 合成データを生成する技術ではなく, ソフトラベルの利用であることを示す。
論文 参考訳(メタデータ) (2024-06-15T03:30:29Z) - Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。
実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文 参考訳(メタデータ) (2024-03-25T19:15:19Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Explicit and Implicit Knowledge Distillation via Unlabeled Data [5.702176304876537]
高速な計算機生成装置を代替する効率的な未ラベルサンプル選択法を提案する。
また,データ領域シフトによるラベルノイズを抑制するためのクラスドロップ機構を提案する。
実験結果から,本手法が他の最先端手法よりも高速に収束し,精度が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:10:41Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。