論文の概要: Towards Trustworthy Dataset Distillation
- arxiv url: http://arxiv.org/abs/2307.09165v2
- Date: Sun, 11 Aug 2024 07:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 01:08:32.369222
- Title: Towards Trustworthy Dataset Distillation
- Title(参考訳): 信頼できるデータセット蒸留を目指して
- Authors: Shijie Ma, Fei Zhu, Zhen Cheng, Xu-Yao Zhang,
- Abstract要約: データセット蒸留(DD)は、大規模なデータセットを小さな合成データセットに蒸留することで、トレーニングコストを削減する。
我々はTrustDD(Trustworthy dataset Distillation)と呼ばれる新しいパラダイムを提案する。
InDサンプルと外れ値の両方を蒸留することにより、凝縮データセットは、InD分類とOOD検出の両方に適するモデルをトレーニングすることができる。
- 参考スコア(独自算出の注目度): 26.361077372859498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiency and trustworthiness are two eternal pursuits when applying deep learning in real-world applications. With regard to efficiency, dataset distillation (DD) endeavors to reduce training costs by distilling the large dataset into a tiny synthetic dataset. However, existing methods merely concentrate on in-distribution (InD) classification in a closed-world setting, disregarding out-of-distribution (OOD) samples. On the other hand, OOD detection aims to enhance models' trustworthiness, which is always inefficiently achieved in full-data settings. For the first time, we simultaneously consider both issues and propose a novel paradigm called Trustworthy Dataset Distillation (TrustDD). By distilling both InD samples and outliers, the condensed datasets are capable of training models competent in both InD classification and OOD detection. To alleviate the requirement of real outlier data, we further propose to corrupt InD samples to generate pseudo-outliers, namely Pseudo-Outlier Exposure (POE). Comprehensive experiments on various settings demonstrate the effectiveness of TrustDD, and POE surpasses the state-of-the-art method Outlier Exposure (OE). Compared with the preceding DD, TrustDD is more trustworthy and applicable to open-world scenarios. Our code is available at https://github.com/mashijie1028/TrustDD
- Abstract(参考訳): 効率性と信頼性は、現実世界のアプリケーションにディープラーニングを適用するとき、永遠の追求である。
効率性に関して、データセット蒸留(DD)は、大規模なデータセットを小さな合成データセットに蒸留することで、トレーニングコストを削減する。
しかし、既存の手法は単に、オフ・オブ・ディストリビューション(OOD)サンプルを無視して、クローズド・ワールド・セッティングにおけるイン・ディストリビューション(In-distriion、InD)分類にのみ集中する。
一方、OOD検出は、フルデータ設定で常に非効率に達成されるモデルの信頼性を高めることを目的としている。
両問題を同時に検討し,TrustDD(Trustworthy Dataset Distillation)と呼ばれる新しいパラダイムを提案する。
InDサンプルと外れ値の両方を蒸留することにより、凝縮データセットは、InD分類とOOD検出の両方に適するモデルをトレーニングすることができる。
さらに、実際の外部データの必要性を軽減するために、擬外部データ(Pseudo-Outlier Exposure (POE))を生成するために、不正なInDサンプルを提案する。
様々な環境における総合的な実験は、TrustDDの有効性を示し、POEは最先端のOutlier Exposure(OE)を超越している。
以前のDDと比較すると、TrustDDはより信頼性が高く、オープンワールドのシナリオに適用できる。
私たちのコードはhttps://github.com/mashijie1028/TrustDDで利用可能です。
関連論文リスト
- DistDD: Distributed Data Distillation Aggregation through Gradient Matching [14.132062317010847]
DistDDは、クライアントのデバイスに直接データを蒸留することで、反復的なコミュニケーションの必要性を減らす、連邦学習フレームワークにおける新しいアプローチである。
本研究では,DistDDアルゴリズムの詳細な収束証明を行い,その数学的安定性と信頼性を実証する。
論文 参考訳(メタデータ) (2024-10-11T09:43:35Z) - OAL: Enhancing OOD Detection Using Latent Diffusion [5.357756138014614]
Outlier Aware Learning (OAL)フレームワークは、潜伏空間で直接OODトレーニングデータを合成する。
In-Distribution (ID) と収集したOOD特徴の区別を増幅する相互情報に基づくコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T11:01:43Z) - Towards Adversarially Robust Dataset Distillation by Curvature Regularization [11.463315774971857]
蒸留したデータセットに対向ロバスト性を組み込むことで、これらのデータセットでトレーニングされたモデルが高い精度を維持し、より良い対向ロバスト性を得る。
そこで本研究では, 従来の逆算法よりも計算オーバーヘッドの少ない蒸留プロセスに曲率正規化を組み込むことにより, この目標を達成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T06:31:03Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - MIM4DD: Mutual Information Maximization for Dataset Distillation [15.847690902246727]
合成データセットと実データセット間の共有情報を定量化する指標として相互情報(MI)を導入する。
コントラスト学習フレームワーク内で,MIを最適化可能な新しい設計により,MIM4DDを数値的に最大化する手法を考案する。
実験の結果,MIM4DDは既存のSoTA DDメソッドのアドオンモジュールとして実装可能であることがわかった。
論文 参考訳(メタデータ) (2023-12-27T16:22:50Z) - Diversified Outlier Exposure for Out-of-Distribution Detection via
Informative Extrapolation [110.34982764201689]
Out-of-Distribution(OOD)検出は、現実のアプリケーションに信頼性の高い機械学習モデルをデプロイするために重要である。
近年, 外部曝露によるOOD検出に有意な結果が得られた。
本稿では,補助外乱量に基づく情報外挿による効果的なOOD検出のための新しい枠組み,すなわちDivOE(Diversified Outlier Exposure)を提案する。
論文 参考訳(メタデータ) (2023-10-21T07:16:09Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Raising the Bar on the Evaluation of Out-of-Distribution Detection [88.70479625837152]
我々は、知覚/視覚的・意味的類似性の概念をiDデータと微妙に異なる概念を用いて、OoDデータの2つのカテゴリを定義した。
iD データセットが与えられた2つのカテゴリそれぞれから OoD サンプルを生成するための GAN ベースのフレームワークを提案する。
従来のベンチマークで非常によく機能する最先端のOoD検出手法は,提案したベンチマークよりもはるかに堅牢であることを示す。
論文 参考訳(メタデータ) (2022-09-24T08:48:36Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。