論文の概要: Empirical Insights of Test Selection Metrics under Multiple Testing Objectives and Distribution Shifts
- arxiv url: http://arxiv.org/abs/2604.23342v1
- Date: Sat, 25 Apr 2026 15:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.282495
- Title: Empirical Insights of Test Selection Metrics under Multiple Testing Objectives and Distribution Shifts
- Title(参考訳): 複数の試験対象と分布変化下における試験選択指標の実証的考察
- Authors: Jingyu Zhang, Fan Wang, Jacky Keung, Yihan Liao, Yan Xiao, Lei Ma,
- Abstract要約: ディープラーニングシステムは、アウト・オブ・ディストリビューションのシナリオに晒された場合、予期しない振る舞いを示すことができる。
このことは、デプロイ前にそのようなシステムを徹底的にテストすることの重要性を浮き彫りにする。
メトリクスの事前評価には3つの重要な制限がある。
- 参考スコア(独自算出の注目度): 23.21969568558423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning (DL)-based systems can exhibit unexpected behavior when exposed to out-of-distribution (OOD) scenarios, posing serious risks in safety-critical domains such as malware detection and autonomous driving. This underscores the importance of thoroughly testing such systems before deployment. To this end, researchers have proposed a wide range of test selection metrics designed to effectively select inputs. However, prior evaluations of metrics reveal three key limitations: (1) narrow testing objectives, for example, many studies assess metrics only for fault detection, leaving their effectiveness for performance estimation unclear; (2) limited coverage of OOD scenarios, with natural and label shifts are rarely considered; (3) Biased dataset selection, where most work focuses on image data while other modalities remain underexplored. Consequently, a unified benchmark that examines how these metrics perform under multiple testing objectives, diverse OOD scenarios, and different data modalities is still lacking. This leaves practitioners uncertain about which test selection metrics are most suitable for their specific objectives and contexts. To address this gap, we conduct an extensive empirical study of 15 existing metrics, evaluating them under three testing objectives (fault detection, performance estimation, and retraining guidance), five types of OOD scenarios (corrupted, adversarial, temporal, natural, and label shifts), three data modalities (image, text, and Android packages), and 13 DL models. In total, our study encompasses 1,640 experimental scenarios, offering a comprehensive evaluation and statistical analysis.
- Abstract(参考訳): ディープラーニング(DL)ベースのシステムは、アウト・オブ・ディストリビューション(OOD)シナリオに晒された場合、予期しない振る舞いを示すことができ、マルウェア検出や自律運転などの安全上重要なドメインに重大なリスクを生じさせる。
このことは、デプロイ前にそのようなシステムを徹底的にテストすることの重要性を浮き彫りにする。
この目的のために、研究者は入力を効果的に選択するための幅広いテスト選択指標を提案している。
しかし, 実験対象の狭さ, 例えば, 故障検出に限らず, 性能評価に有効性を残している研究が多いこと, 2) 自然とラベルのシフトを伴うOODシナリオの限られた範囲についてはほとんど考慮されていないこと, (3) 多くの研究が画像データに焦点を絞ったバイアスデータセットの選択, その他のモダリティが未検討のままであること, の3つの重要な制限が示された。
その結果、これらのメトリクスが複数のテスト目標、多様なOODシナリオ、さまざまなデータモダリティの下でどのように機能するかを調べる統一されたベンチマークが、まだ不足している。
このことは、特定の目的やコンテキストに最も適しているテスト選択メトリクスについて、実践者が不確実なままである。
このギャップに対処するため、我々は15の既存のメトリクスについて広範な実証研究を行い、3つのテスト目標(デフォルト検出、パフォーマンス推定、再トレーニングガイダンス)、5種類のOODシナリオ(故障、逆境、時間、自然、ラベルシフト)、3つのデータモダリティ(画像、テキスト、Androidパッケージ)、13のDLモデルで評価した。
本研究は1,640件の実験シナリオを網羅し,総合的な評価と統計的分析を行った。
関連論文リスト
- Out-of-distribution detection in 3D applications: a review [1.188705980058767]
オブジェクト認識手法は、推論中に遭遇するすべてのオブジェクトカテゴリが、トレーニングデータに存在するクラスの閉じたセットに属していると仮定する。
この仮定は、訓練中に見えない物体が誤って分類されたり完全に無視されたりするため、現実の世界への一般化を制限する。
本稿では,信頼に値する,不確実なAIの範囲内でのOOD検出の包括的概要を提供する。
論文 参考訳(メタデータ) (2025-07-01T08:43:13Z) - Does Data Contamination Detection Work (Well) for LLMs? A Survey and Evaluation on Detection Assumptions [20.51842378080194]
大規模言語モデル(LLM)は、様々なベンチマークで優れた性能を示し、汎用的なタスクソルバとしての可能性を示している。
LLMは典型的には大量のデータに基づいて訓練されるため、その評価において重要な関心事はデータ汚染である。
データ汚染検出に関する50の論文を体系的にレビューし、基礎となる仮定を分類し、厳格に検証されたかどうかを評価する。
論文 参考訳(メタデータ) (2024-10-24T17:58:22Z) - MetaOOD: Automatic Selection of OOD Detection Models [11.828994403048348]
我々はメタラーニングを利用してOOD検出モデルを自動的に選択する最初のゼロショット・アン教師なしフレームワークであるMetaOODを紹介した。
メタ学習のアプローチとして、MetaOODは、さまざまなベンチマークOOD検出データセットにまたがって、既存のメソッドの過去のパフォーマンスデータを活用する。
私たちはMetaOODが既存のメソッドを著しく上回り、限界時間のオーバーヘッドしか生じないことを示した。
論文 参考訳(メタデータ) (2024-10-04T01:36:19Z) - LeCov: Multi-level Testing Criteria for Large Language Models [18.558729220192415]
大きな言語モデル(LLM)は多くの異なるドメインで広く使われているが、その解釈可能性に限界があるため、それらがどの程度信頼できるかという疑問がある。
最近の研究は、デプロイ前に信頼できない問題を明らかにすることを目的として、LSMのテスト方法の開発を開始した。
この脅威を軽減するために,LLMのマルチレベルテスト基準であるLeCovを提案する。
論文 参考訳(メタデータ) (2024-08-20T01:17:54Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - AUTO: Adaptive Outlier Optimization for Test-Time OOD Detection [79.51071170042972]
Out-of-Distribution (OOD) 検出は、任意のトレーニングインディストリビューション(ID)クラスに該当しないテストサンプルを検出することを目的としている。
データ安全性とプライバシにより、さまざまなシナリオに対して、事前にタスク固有の外れ値の収集が不可能になる。
テスト中にラベルのないデータストリームから実際のOODデータを利用することができる。
論文 参考訳(メタデータ) (2023-03-22T02:28:54Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - An Informative Tracking Benchmark [133.0931262969931]
既存のデータセットと新たに収集されたデータセットの1.2Mフレームのうち7%が、小型かつ情報的追跡ベンチマーク(ITB)である。
1) 課題レベル, 2) 識別力, 3) 外観変化の密度を考慮し, 既存のベンチマークから最も有意義なシーケンスを選択する。
同一データ上で再学習した15の最先端トラッカーの結果を解析することにより,各シナリオ下でのロバストなトラッカーの効果的な手法を決定できる。
論文 参考訳(メタデータ) (2021-12-13T07:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。