論文の概要: Labeling-Free Comparison Testing of Deep Learning Models
- arxiv url: http://arxiv.org/abs/2204.03994v1
- Date: Fri, 8 Apr 2022 10:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 12:46:46.049906
- Title: Labeling-Free Comparison Testing of Deep Learning Models
- Title(参考訳): ディープラーニングモデルのラベルフリー比較試験
- Authors: Yuejun Guo, Qiang Hu, Maxime Cordy, Xiaofei Xie, Mike Papadakis, Yves
Le Traon
- Abstract要約: 本研究では,ラベリング作業の限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。
提案手法は,データセットや分布シフトに関わらず,Spearmanの相関値とKendallの$tau$に対して,最大0.74および0.53のベースライン手法より優れている。
- 参考スコア(独自算出の注目度): 28.47632100019289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various deep neural networks (DNNs) are developed and reported for their
tremendous success in multiple domains. Given a specific task, developers can
collect massive DNNs from public sources for efficient reusing and avoid
redundant work from scratch. However, testing the performance (e.g., accuracy
and robustness) of multiple DNNs and giving a reasonable recommendation that
which model should be used is challenging regarding the scarcity of labeled
data and demand of domain expertise. Existing testing approaches are mainly
selection-based where after sampling, a few of the test data are labeled to
discriminate DNNs. Therefore, due to the randomness of sampling, the
performance ranking is not deterministic. In this paper, we propose a
labeling-free comparison testing approach to overcome the limitations of
labeling effort and sampling randomness. The main idea is to learn a Bayesian
model to infer the models' specialty only based on predicted labels. To
evaluate the effectiveness of our approach, we undertook exhaustive experiments
on 9 benchmark datasets spanning in the domains of image, text, and source
code, and 165 DNNs. In addition to accuracy, we consider the robustness against
synthetic and natural distribution shifts. The experimental results demonstrate
that the performance of existing approaches degrades under distribution shifts.
Our approach outperforms the baseline methods by up to 0.74 and 0.53 on
Spearman's correlation and Kendall's $\tau$, respectively, regardless of the
dataset and distribution shift. Additionally, we investigated the impact of
model quality (accuracy and robustness) and diversity (standard deviation of
the quality) on the testing effectiveness and observe that there is a higher
chance of a good result when the quality is over 50\% and the diversity is
larger than 18\%.
- Abstract(参考訳): 様々なディープニューラルネットワーク(DNN)が開発され、複数のドメインで大きな成功を収めたと報告されている。
特定のタスクが与えられたら、開発者はパブリックソースから大量のDNNを収集して効率的に再利用し、スクラッチから冗長な作業を避けることができる。
しかし、複数のDNNのパフォーマンス(例えば精度と堅牢性)をテストし、どのモデルを使うべきかを合理的に推奨することは、ラベル付きデータの不足とドメインの専門知識の要求に関して難しい。
既存のテストアプローチは主に、サンプリング後、DNNを識別するためにいくつかのテストデータがラベル付けされている。
したがって、サンプリングのランダム性のため、性能ランキングは決定論的ではない。
本稿では,ラベリングの限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。
主なアイデアは、予測されたラベルのみに基づいてモデルの専門性を推測するベイズモデルを学ぶことである。
提案手法の有効性を評価するため,画像,テキスト,ソースコードの領域にまたがる9つのベンチマークデータセットと165個のDNNの総合的な実験を行った。
精度に加えて、合成および自然分布シフトに対する堅牢性についても検討する。
実験の結果,既存手法の性能は分布シフトにより低下することが示された。
提案手法は,spiermanの相関値とkendallの$\tau$を,データセットと分布シフトによらず,0.74 と 0.53 のベースライン法を上回った。
さらに,モデル品質(正確性とロバスト性)と多様性(品質の標準偏差)がテスト有効性に与える影響を調査し,品質が50\%以上で多様性が18\%以上の場合,良好な結果が得られる確率が高いことを観察した。
関連論文リスト
- Uncertainty Measurement of Deep Learning System based on the Convex Hull of Training Sets [0.13265175299265505]
本研究では,訓練データの凸殻に基づくトレーニングモデルの不確実性を測定するTo-hull Uncertainity and Closure Ratioを提案する。
学習したデータの凸船体と見えないサンプルとの間の位置関係を観察し、サンプルが凸船体からどのように外挿されているかを推測することができる。
論文 参考訳(メタデータ) (2024-05-25T06:25:24Z) - Continual Test-time Domain Adaptation via Dynamic Sample Selection [38.82346845855512]
本稿では,連続テスト時間領域適応(CTDA)のための動的サンプル選択法を提案する。
誤情報を誤用するリスクを低減するため,高品質と低品質の両方のサンプルに共同正負の学習を適用した。
私たちのアプローチは3Dポイントのクラウドドメインでも評価されており、その汎用性とより広範な適用可能性を示している。
論文 参考訳(メタデータ) (2023-10-05T06:35:21Z) - Efficient Testing of Deep Neural Networks via Decision Boundary Analysis [28.868479656437145]
我々は、新しいラベルのないデータに基づいてDNNの性能を推定できるAriesという新しい手法を提案する。
Aries による推定精度は 0.03% -- 2.60% (平均 0.61%) しか真の精度から外れていない。
論文 参考訳(メタデータ) (2022-07-22T08:39:10Z) - ScatterSample: Diversified Label Sampling for Data Efficient Graph
Neural Network Learning [22.278779277115234]
グラフニューラルネットワーク(GNN)トレーニングが高価であるいくつかのアプリケーションでは、新しいインスタンスのラベル付けが高価である。
データ効率のよいアクティブサンプリングフレームワークであるScatterSampleを開発し、アクティブな学習環境下でGNNを訓練する。
5つのデータセットに対する実験により、ScatterSampleは他のGNNのアクティブラーニングベースラインよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-06-09T04:05:02Z) - Fake It Till You Make It: Near-Distribution Novelty Detection by
Score-Based Generative Models [54.182955830194445]
既存のモデルは、いわゆる"近く分布"設定で失敗するか、劇的な低下に直面します。
本稿では, スコアに基づく生成モデルを用いて, 合成近分布異常データを生成することを提案する。
本手法は,9つのノベルティ検出ベンチマークにおいて,近分布ノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。
論文 参考訳(メタデータ) (2022-05-28T02:02:53Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。