論文の概要: Flexible Dataset Distillation: Learn Labels Instead of Images
- arxiv url: http://arxiv.org/abs/2006.08572v3
- Date: Sat, 12 Dec 2020 12:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 03:14:11.995014
- Title: Flexible Dataset Distillation: Learn Labels Instead of Images
- Title(参考訳): フレキシブルデータセット蒸留:画像の代わりにラベルを学ぶ
- Authors: Ondrej Bohdal, Yongxin Yang, Timothy Hospedales
- Abstract要約: 我々の新しいアルゴリズムでラベルを蒸留すると、以前の画像に基づく蒸留よりも良い結果が得られる。
従来のイメージベースによるデータセット蒸留法よりも効果的であることを示す。
- 参考スコア(独自算出の注目度): 44.73351338165214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of dataset distillation - creating a small set of
synthetic examples capable of training a good model. In particular, we study
the problem of label distillation - creating synthetic labels for a small set
of real images, and show it to be more effective than the prior image-based
approach to dataset distillation. Methodologically, we introduce a more robust
and flexible meta-learning algorithm for distillation, as well as an effective
first-order strategy based on convex optimization layers. Distilling labels
with our new algorithm leads to improved results over prior image-based
distillation. More importantly, it leads to clear improvements in flexibility
of the distilled dataset in terms of compatibility with off-the-shelf
optimizers and diverse neural architectures. Interestingly, label distillation
can also be applied across datasets, for example enabling learning Japanese
character recognition by training only on synthetically labeled English
letters.
- Abstract(参考訳): 我々はデータセット蒸留の問題を研究し、良いモデルを訓練できる少数の合成例を作成する。
特に,少量の実画像の合成ラベルを作成することによるラベル蒸留の問題点について検討し,従来の画像ベースによるデータセット蒸留手法よりも有効であることを示す。
提案手法では, より堅牢で柔軟な蒸留メタラーニングアルゴリズムと, 凸最適化層に基づく効率的な1次戦略を導入する。
新しいアルゴリズムでラベルを蒸留すると、以前の画像ベースの蒸留よりも結果が向上する。
さらに重要なのは、オフザシェルフオプティマイザと多様なニューラルアーキテクチャとの互換性の観点から、蒸留データセットの柔軟性が明確に向上することです。
興味深いことに、ラベル蒸留はデータセットにまたがって適用でき、例えば合成ラベル付き英語文字のみを訓練することで日本語文字認識を学べる。
関連論文リスト
- One Category One Prompt: Dataset Distillation using Diffusion Models [22.512552596310176]
本稿では,D3M(Diffusion Models)をデータセット蒸留の新たなパラダイムとして導入し,生成的テキスト・画像基盤モデルの最近の進歩を活用する。
提案手法では,テキストから画像への合成モデルを微調整する手法であるテキストインバージョンを用いて,大規模データセットの簡潔かつ情報的な表現を生成する。
論文 参考訳(メタデータ) (2024-03-11T20:23:59Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Vision-Language Dataset Distillation [29.371308478925446]
トラジェクトリマッチングのアイデアに基づいて,最初の視覚言語によるデータセット蒸留法を設計する。
重要な課題は、ビジョン言語データセットが独立したクラスのセットを持っていないことだ。
提案手法は, コントラスト式で画像とテキストのペアを共同蒸留する。
論文 参考訳(メタデータ) (2023-08-15T03:22:40Z) - Synthetic Augmentation with Large-scale Unconditional Pre-training [4.162192894410251]
アノテーション付きデータへの依存性を低減するため,HistoDiffusionという合成拡張手法を提案する。
HistoDiffusionは、大規模にラベル付けされていないデータセットで事前トレーニングし、その後、拡張トレーニングのために小さなラベル付きデータセットに適用することができる。
本手法は,3つの病理組織学的データセットを事前学習し,大腸癌の病理組織学的データセット(CRC)を事前学習データセットから除外して評価する。
論文 参考訳(メタデータ) (2023-08-08T03:34:04Z) - Distill Gold from Massive Ores: Efficient Dataset Distillation via
Critical Samples Selection [101.78275454476311]
情報伝達の文脈内でデータセット蒸留タスクをモデル化する。
我々は、データユーティリティー推定器のファミリーと、最も価値のあるサンプルを利用する最適なデータ選択方法を導入し、検証する。
提案手法は, より大規模で異種なデータセットであっても, 蒸留アルゴリズムを一貫して強化する。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Explicit and Implicit Knowledge Distillation via Unlabeled Data [5.702176304876537]
高速な計算機生成装置を代替する効率的な未ラベルサンプル選択法を提案する。
また,データ領域シフトによるラベルノイズを抑制するためのクラスドロップ機構を提案する。
実験結果から,本手法が他の最先端手法よりも高速に収束し,精度が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:10:41Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。