論文の概要: AST: Effective Dataset Distillation through Alignment with Smooth and
High-Quality Expert Trajectories
- arxiv url: http://arxiv.org/abs/2310.10541v2
- Date: Mon, 27 Nov 2023 16:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 13:52:43.153103
- Title: AST: Effective Dataset Distillation through Alignment with Smooth and
High-Quality Expert Trajectories
- Title(参考訳): AST:スムーズかつ高品質なエキスパート軌道とのアライメントによる効果的なデータセット蒸留
- Authors: Jiyuan Shen, Wenzhuo Yang, Kwok-Yan Lam
- Abstract要約: 我々は,Smoothと高品質なエキスパートトラジェクトリによるアライメントのための効果的なDDフレームワークASTを提案する。
さまざまなスケール、サイズ、解像度のデータセットに対して、広範な実験を行います。
- 参考スコア(独自算出の注目度): 18.266786462036553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large AI models typically requires large-scale datasets in the
machine learning process, making training and parameter-tuning process both
time-consuming and costly. Some researchers address this problem by carefully
synthesizing a very small number of highly representative and informative
samples from real-world datasets. This approach, known as Dataset Distillation
(DD), proposes a perspective for data-efficient learning. Despite recent
progress in this field, the performance of existing methods still cannot meet
expectations, and distilled datasets cannot effectively replace original
datasets. In this paper, unlike previous methods that focus solely on improving
the effectiveness of student distillation, we recognize and leverage the
important mutual influence between expert and student models. We observed that
the smoothness of expert trajectories has a significant impact on subsequent
student parameter alignment. Based on this, we propose an effective DD
framework named AST, standing for Alignment with Smooth and high-quality expert
Trajectories. We devise the integration of clipping loss and gradient penalty
to regulate the rate of parameter changes in expert trajectory generation. To
further refine the student parameter alignment with expert trajectory, we put
forward representative initialization for the synthetic dataset and balanced
inner-loop loss in response to the sensitivity exhibited towards randomly
initialized variables during distillation. We also propose two enhancement
strategies, namely intermediate matching loss and weight perturbation, to
mitigate the potential occurrence of cumulative errors. We conduct extensive
experiments on datasets of different scales, sizes, and resolutions. The
results demonstrate that the proposed method significantly outperforms prior
methods.
- Abstract(参考訳): 大規模なAIモデルのトレーニングは通常、機械学習プロセスで大規模なデータセットを必要とする。
一部の研究者は、現実世界のデータセットから非常に少数の非常に代表的で情報性の高いサンプルを慎重に合成することでこの問題に対処している。
このアプローチは、Dataset Distillation (DD) と呼ばれ、データ効率の学習の視点を提案する。
この分野での最近の進歩にもかかわらず、既存のメソッドのパフォーマンスはまだ期待に届かず、蒸留データセットは元のデータセットを効果的に置き換えることはできない。
本稿では, 学生蒸留の有効性向上にのみ焦点をあてた従来の方法とは異なり, 専門家と学生のモデル間の重要な相互影響を認識し, 活用する。
専門家の軌跡の滑らかさは,その後の学生パラメータアライメントに大きな影響を与えることがわかった。
そこで本研究では,Smooth と高品位専門家によるアライメントのための DD フレームワーク AST を提案する。
我々は,クリッピング損失と勾配ペナルティの統合を考案し,専門家の軌道生成におけるパラメータ変化率を調節する。
さらに, 学生パラメータアライメントをエキスパート軌道に適合させるため, 蒸留中のランダム初期化変数に対する感度に応答して, 合成データセットの代表的な初期化と内部ループ損失のバランスを取る。
また,累積誤差の発生可能性を軽減するため,中間整合損失と重み摂動の2つの強化戦略を提案する。
さまざまなスケール、サイズ、解像度のデータセットに関する広範な実験を行います。
その結果,提案手法は先行手法よりも有意に優れていた。
関連論文リスト
- Heterogeneous Learning Rate Scheduling for Neural Architecture Search on Long-Tailed Datasets [0.0]
本稿では,DARTSのアーキテクチャパラメータに適した適応学習率スケジューリング手法を提案する。
提案手法は,学習エポックに基づくアーキテクチャパラメータの学習率を動的に調整し,よく訓練された表現の破壊を防止する。
論文 参考訳(メタデータ) (2024-06-11T07:32:25Z) - DiffsFormer: A Diffusion Transformer on Stock Factor Augmentation [36.75453713794983]
トランスフォーマーアーキテクチャを用いたストックファクタ生成のための拡散モデル(DiffsFormer)を提案する。
特定の下流タスクを提示すると、既存のサンプルを編集してトレーニング手順を強化するためにDiffsFormerを使用します。
提案手法は,各データセットの年次リターン率の7.2%と27.8%を相対的に改善する。
論文 参考訳(メタデータ) (2024-02-05T03:54:36Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。