論文の概要: Hazards in Deep Learning Testing: Prevalence, Impact and Recommendations
- arxiv url: http://arxiv.org/abs/2309.05381v1
- Date: Mon, 11 Sep 2023 11:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 12:58:17.231316
- Title: Hazards in Deep Learning Testing: Prevalence, Impact and Recommendations
- Title(参考訳): ディープラーニングテストにおけるハザード : 頻度、影響、推奨
- Authors: Salah Ghamizi, Maxime Cordy, Yuejun Guo, Mike Papadakis, And Yves Le
Traon
- Abstract要約: 実験結果に有意な影響を及ぼす可能性のある10種類の経験的評価危険因子を同定した。
以上の結果から,10件のハザードが実験結果の無効化につながる可能性が示唆された。
危険を緩和する可能性を持つ10の優れた経験的実践のポイントセットを提案する。
- 参考スコア(独自算出の注目度): 17.824339932321788
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Much research on Machine Learning testing relies on empirical studies that
evaluate and show their potential. However, in this context empirical results
are sensitive to a number of parameters that can adversely impact the results
of the experiments and potentially lead to wrong conclusions (Type I errors,
i.e., incorrectly rejecting the Null Hypothesis). To this end, we survey the
related literature and identify 10 commonly adopted empirical evaluation
hazards that may significantly impact experimental results. We then perform a
sensitivity analysis on 30 influential studies that were published in top-tier
SE venues, against our hazard set and demonstrate their criticality. Our
findings indicate that all 10 hazards we identify have the potential to
invalidate experimental findings, such as those made by the related literature,
and should be handled properly. Going a step further, we propose a point set of
10 good empirical practices that has the potential to mitigate the impact of
the hazards. We believe our work forms the first step towards raising awareness
of the common pitfalls and good practices within the software engineering
community and hopefully contribute towards setting particular expectations for
empirical research in the field of deep learning testing.
- Abstract(参考訳): 機械学習テストに関する多くの研究は、その可能性を評価し示す実証的な研究に依存している。
しかし、この文脈において経験的な結果は実験の結果に悪影響を及ぼし、潜在的に間違った結論をもたらす可能性のある多くのパラメータに敏感である(タイプIの誤り、すなわち、ヌル仮説を誤って拒否する)。
そこで本研究では,関連する文献を調査し,実験結果に有意な影響を及ぼす可能性のある10の実証的評価ハザードを同定する。
次に,トップクラスのse会場で発表された30の影響力のある研究について,我々のハザードセットに対する感度分析を行い,その臨界性を示す。
以上の結果から,本研究で特定した10種類のハザードはすべて,関連文献などの実験的発見を無効にし,適切に処理すべきであることが示唆された。
さらに一歩進めて、危険の影響を緩和する可能性を持つ10の優れた経験的実践のポイントセットを提案する。
私たちの仕事は、ソフトウェアエンジニアリングコミュニティにおける共通の落とし穴や優れたプラクティスの認識を高めるための第一歩であり、ディープラーニングテストの分野で実証的研究に特に期待することへの貢献を願っています。
関連論文リスト
- Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
本研究では,ラベル付き類似実験を微調整した予測モデルを用いて,ラベル付き実結果を用いた対象実験の因果推論に焦点をあてる。
まず,経験的リスク最小化(ERM)による実結果推定は,対象個体群に対して有効な因果推論を導出できない可能性があることを示す。
本稿では,実証的リスク最小化法(DEM)を提案する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Contexts Matter: An Empirical Study on Contextual Influence in Fairness Testing for Deep Learning Systems [3.077531983369872]
さまざまなコンテキストが公平性テストの結果にどのように影響するかを理解することを目的としている。
私たちの結果は、異なるコンテキストタイプと設定が一般的にテストに重大な影響を与えることを示しています。
論文 参考訳(メタデータ) (2024-08-12T12:36:06Z) - Design Principles for Falsifiable, Replicable and Reproducible Empirical ML Research [2.3265565167163906]
実証的研究は、機械学習領域において基本的な役割を担っている。
本稿では,実証研究の妥当性を維持するためのガイドラインを伴って,実証研究プロセスのモデルを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:37:59Z) - Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。
最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:26:34Z) - On (Mis)perceptions of testing effectiveness: an empirical study [1.8026347864255505]
本研究の目的は, 異なる手法の欠陥検出の有効性の認識が, 先行経験の欠如において, 実際の有効性とどの程度一致しているかを明らかにすることである。
本研究は,2つのテスト手法とコードレビュー手法を適用した学生を対象に,制御実験を行った。
実験の最後には、どのテクニックが最も効果的かを調べる調査が行われた。
再現された研究の結果は、元の研究の結果を確認し、参加者の認識は、テクニックの複雑さや嗜好についての意見ではなく、そのテクニックを適用したと考えることについての意見に基づいているかもしれないことを示唆している。
論文 参考訳(メタデータ) (2024-02-11T14:50:01Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [59.29868677652324]
実験と観測を組み合わせた二重機械学習手法を提案する。
我々の枠組みは、より軽度の仮定の下で、外部の妥当性と無知の違反を検査する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - An introduction to causal reasoning in health analytics [2.199093822766999]
従来の機械学習と統計的アプローチで発生する可能性のある欠点のいくつかを強調して、観測データを分析します。
一般的な機械学習問題に対処するための因果推論の応用を実演する。
論文 参考訳(メタデータ) (2021-05-10T20:25:56Z) - Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。
本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文 参考訳(メタデータ) (2020-06-14T01:15:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。