論文の概要: Towards Trustworthy Dataset Distillation
- arxiv url: http://arxiv.org/abs/2307.09165v1
- Date: Tue, 18 Jul 2023 11:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 15:15:52.016740
- Title: Towards Trustworthy Dataset Distillation
- Title(参考訳): 信頼できるデータセット蒸留を目指して
- Authors: Shijie Ma, Fei Zhu, Zhen Cheng, Xu-Yao Zhang
- Abstract要約: データセット蒸留(DD)は、大規模なデータセットを小さな合成データセットに蒸留することで、トレーニングコストを削減する。
我々はTrustDD(Trustworthy dataset Distillation)と呼ばれる新しいパラダイムを提案する。
InDサンプルと外れ値の両方を蒸留することにより、凝縮データセットは、InD分類とOOD検出の両方に適するモデルをトレーニングすることができる。
- 参考スコア(独自算出の注目度): 18.0504779284348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiency and trustworthiness are two eternal pursuits when applying deep
learning in real-world applications. With regard to efficiency, dataset
distillation (DD) endeavors to reduce training costs by distilling the large
dataset into a tiny synthetic dataset. However, existing methods merely
concentrate on in-distribution (InD) classification in a closed-world setting,
disregarding out-of-distribution (OOD) samples. On the other hand, OOD
detection aims to enhance models' trustworthiness, which is always
inefficiently achieved in full-data settings. For the first time, we
simultaneously consider both issues and propose a novel paradigm called
Trustworthy Dataset Distillation (TrustDD). By distilling both InD samples and
outliers, the condensed datasets are capable to train models competent in both
InD classification and OOD detection. To alleviate the requirement of real
outlier data and make OOD detection more practical, we further propose to
corrupt InD samples to generate pseudo-outliers and introduce Pseudo-Outlier
Exposure (POE). Comprehensive experiments on various settings demonstrate the
effectiveness of TrustDD, and the proposed POE surpasses state-of-the-art
method Outlier Exposure (OE). Compared with the preceding DD, TrustDD is more
trustworthy and applicable to real open-world scenarios. Our code will be
publicly available.
- Abstract(参考訳): 効率性と信頼性は、現実世界のアプリケーションにディープラーニングを適用するとき、永遠の追求である。
効率性に関して、データセット蒸留(DD)は、大規模なデータセットを小さな合成データセットに蒸留することで、トレーニングコストを削減する。
しかし、既存の手法では、非分配(out-of-distribution、ood)のサンプルを無視して、クローズドワールドの設定でin-distribution(ind)の分類にのみ集中している。
一方、OOD検出は、フルデータ設定で常に非効率に達成されるモデルの信頼性を高めることを目的としている。
両課題を同時に検討し,信頼に値するデータセット蒸留(trustdd)と呼ばれる新しいパラダイムを提案する。
InDサンプルと外れ値の両方を蒸留することにより、凝縮データセットは、InD分類とOOD検出の両方に適するモデルをトレーニングすることができる。
さらに,実際の外部データの必要性を緩和し,OOD検出をより実用的なものにするために,擬似外部データを生成するために不正なInDサンプルを提案し,Pseudo-Outlier Exposure(POE)を導入する。
様々な環境における総合的な実験により、TrustDDの有効性が示され、提案したPOEは最先端のOutlier Exposure(OE)を超える。
以前のDDと比較してTrustDDは信頼性が高く、実際のオープンワールドシナリオに適用できる。
私たちのコードは公開されます。
関連論文リスト
- How Does Unlabeled Data Provably Help Out-of-Distribution Detection? [63.41681272937562]
in-distribution (ID) とout-of-distribution (OOD) の両データの不均一性のため、未ラベルの in-the-wild データは非自明である。
本稿では,理論的保証と実証的有効性の両方を提供する新たな学習フレームワークであるSAL(Separate And Learn)を紹介する。
論文 参考訳(メタデータ) (2024-02-05T20:36:33Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Diversified Outlier Exposure for Out-of-Distribution Detection via
Informative Extrapolation [110.34982764201689]
Out-of-Distribution(OOD)検出は、現実のアプリケーションに信頼性の高い機械学習モデルをデプロイするために重要である。
近年, 外部曝露によるOOD検出に有意な結果が得られた。
本稿では,補助外乱量に基づく情報外挿による効果的なOOD検出のための新しい枠組み,すなわちDivOE(Diversified Outlier Exposure)を提案する。
論文 参考訳(メタデータ) (2023-10-21T07:16:09Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Raising the Bar on the Evaluation of Out-of-Distribution Detection [88.70479625837152]
我々は、知覚/視覚的・意味的類似性の概念をiDデータと微妙に異なる概念を用いて、OoDデータの2つのカテゴリを定義した。
iD データセットが与えられた2つのカテゴリそれぞれから OoD サンプルを生成するための GAN ベースのフレームワークを提案する。
従来のベンチマークで非常によく機能する最先端のOoD検出手法は,提案したベンチマークよりもはるかに堅牢であることを示す。
論文 参考訳(メタデータ) (2022-09-24T08:48:36Z) - Augmenting Softmax Information for Selective Classification with
Out-of-Distribution Data [7.221206118679026]
既存のポストホック法はOOD検出でのみ評価した場合とは大きく異なる性能を示す。
本稿では,特徴に依存しない情報を用いて,ソフトマックスに基づく信頼度を向上するSCOD(Softmax Information Retaining Combination, SIRC)の新たな手法を提案する。
多様なImageNetスケールのデータセットと畳み込みニューラルネットワークアーキテクチャの実験は、SIRCがSCODのベースラインを一貫して一致または上回っていることを示している。
論文 参考訳(メタデータ) (2022-07-15T14:39:57Z) - Training OOD Detectors in their Natural Habitats [31.565635192716712]
アウト・オブ・ディストリビューション(OOD)検出は、野生にデプロイされた機械学習モデルにとって重要である。
近年の手法では,OOD検出の改善のために補助外乱データを用いてモデルを正規化している。
我々は、自然にIDとOODの両方のサンプルで構成される野生の混合データを活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T15:38:39Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。