論文の概要: Efficient Dataset Distillation through Alignment with Smooth and
High-Quality Expert Trajectories
- arxiv url: http://arxiv.org/abs/2310.10541v1
- Date: Mon, 16 Oct 2023 16:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 13:11:20.405853
- Title: Efficient Dataset Distillation through Alignment with Smooth and
High-Quality Expert Trajectories
- Title(参考訳): スムーズかつ高品質なエキスパート軌道とのアライメントによる効率的なデータセット蒸留
- Authors: Jiyuan Shen, Wenzhuo Yang, Kwok-Yan Lam
- Abstract要約: 本研究では,データセット蒸留と呼ばれるデータ効率のよい手法を提案する。
より強力な専門家軌道を用いる場合、専門家の滑らかさの重大な影響を論じる。
蒸留中に無作為な変数に対して現れる感度に反応して, 2つの拡張戦略を示す。
- 参考スコア(独自算出の注目度): 18.266786462036553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a large and state-of-the-art machine learning model typically
necessitates the use of large-scale datasets, which, in turn, makes the
training and parameter-tuning process expensive and time-consuming. Some
researchers opt to distil information from real-world datasets into tiny and
compact synthetic datasets while maintaining their ability to train a
well-performing model, hence proposing a data-efficient method known as Dataset
Distillation (DD). Despite recent progress in this field, existing methods
still underperform and cannot effectively replace large datasets. In this
paper, unlike previous methods that focus solely on improving the efficacy of
student distillation, we are the first to recognize the important interplay
between expert and student. We argue the significant impact of expert
smoothness when employing more potent expert trajectories in subsequent dataset
distillation. Based on this, we introduce the integration of clipping loss and
gradient penalty to regulate the rate of parameter changes in expert
trajectories. Furthermore, in response to the sensitivity exhibited towards
randomly initialized variables during distillation, we propose representative
initialization for synthetic dataset and balanced inner-loop loss. Finally, we
present two enhancement strategies, namely intermediate matching loss and
weight perturbation, to mitigate the potential occurrence of cumulative errors.
We conduct extensive experiments on datasets of different scales, sizes, and
resolutions. The results demonstrate that the proposed method significantly
outperforms prior methods.
- Abstract(参考訳): 大規模かつ最先端の機械学習モデルをトレーニングするには、通常、大規模なデータセットを使用する必要がある。
一部の研究者は、情報を現実世界のデータセットから小さくてコンパクトな合成データセットに分解し、パフォーマンスのよいモデルを訓練する能力を維持しながら、データセット蒸留(dd)として知られるデータ効率の高い方法を提案する。
この分野の最近の進歩にもかかわらず、既存のメソッドはまだパフォーマンスが低く、大規模なデータセットを効果的に置き換えることができない。
本稿では, 学生蒸留の有効性向上にのみ焦点をあてた従来の方法とは異なり, 専門家と学生の間の重要な相互作用を初めて認識した。
我々は, より強力な専門的軌跡を用いた後のデータセット蒸留における専門家の滑らかさの有意な影響を論じる。
そこで本稿では, クリッピング損失と勾配ペナルティを統合して, 専門家軌道のパラメータ変化率を調節する手法を提案する。
さらに,蒸留中の無作為初期化変数に対する感度に応答して,合成データセットの代表的な初期化と内部ループ損失のバランスを提案する。
最後に, 累積誤差の発生可能性を軽減するため, 中間整合損失と重み摂動の2つの強化戦略を提案する。
さまざまなスケール、サイズ、解像度のデータセットに関する広範な実験を行います。
その結果,提案手法は先行手法よりも有意に優れていた。
関連論文リスト
- Heterogeneous Learning Rate Scheduling for Neural Architecture Search on Long-Tailed Datasets [0.0]
本稿では,DARTSのアーキテクチャパラメータに適した適応学習率スケジューリング手法を提案する。
提案手法は,学習エポックに基づくアーキテクチャパラメータの学習率を動的に調整し,よく訓練された表現の破壊を防止する。
論文 参考訳(メタデータ) (2024-06-11T07:32:25Z) - DiffsFormer: A Diffusion Transformer on Stock Factor Augmentation [36.75453713794983]
トランスフォーマーアーキテクチャを用いたストックファクタ生成のための拡散モデル(DiffsFormer)を提案する。
特定の下流タスクを提示すると、既存のサンプルを編集してトレーニング手順を強化するためにDiffsFormerを使用します。
提案手法は,各データセットの年次リターン率の7.2%と27.8%を相対的に改善する。
論文 参考訳(メタデータ) (2024-02-05T03:54:36Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。