論文の概要: Good practices for evaluation of machine learning systems
- arxiv url: http://arxiv.org/abs/2412.03700v1
- Date: Wed, 04 Dec 2024 20:30:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:09.153552
- Title: Good practices for evaluation of machine learning systems
- Title(参考訳): 機械学習システム評価のためのグッドプラクティス
- Authors: Luciana Ferrer, Odette Scharenborg, Tom Bäckström,
- Abstract要約: 評価プロトコルの設計に関わる主な側面として,データ選択,メートル法選択,統計的意義について論じる。
本稿では, 音声処理分野から抽出した例と, それぞれの側面に共通する誤りの一覧を示す。
- 参考スコア(独自算出の注目度): 28.2601701453212
- License:
- Abstract: Many development decisions affect the results obtained from ML experiments: training data, features, model architecture, hyperparameters, test data, etc. Among these aspects, arguably the most important design decisions are those that involve the evaluation procedure. This procedure is what determines whether the conclusions drawn from the experiments will or will not generalize to unseen data and whether they will be relevant to the application of interest. If the data is incorrectly selected, the wrong metric is chosen for evaluation or the significance of the comparisons between models is overestimated, conclusions may be misleading or result in suboptimal development decisions. To avoid such problems, the evaluation protocol should be very carefully designed before experimentation starts. In this work we discuss the main aspects involved in the design of the evaluation protocol: data selection, metric selection, and statistical significance. This document is not meant to be an exhaustive tutorial on each of these aspects. Instead, the goal is to explain the main guidelines that should be followed in each case. We include examples taken from the speech processing field, and provide a list of common mistakes related to each aspect.
- Abstract(参考訳): 多くの開発判断は、トレーニングデータ、機能、モデルアーキテクチャ、ハイパーパラメータ、テストデータなど、ML実験の結果に影響を与える。
これらの側面の中で、おそらく最も重要な設計決定は、評価手順を含むものである。
この手順は、実験から引き出された結論が、見つからないデータに一般化するかどうか、興味の応用に関係があるかどうかを決定するものである。
データが誤って選択された場合、間違ったメトリックが評価のために選択されるか、モデル間の比較の重要さが過大評価され、結論は誤解を招くか、あるいは最適でない開発決定をもたらす可能性がある。
このような問題を避けるためには,実験開始前に評価プロトコルを慎重に設計する必要がある。
本稿では,評価プロトコルの設計に関わる主な側面として,データ選択,メートル法選択,統計的意義について論じる。
この文書は、これらの各側面についての徹底的なチュートリアルではない。
代わりに、それぞれのケースで従うべき主なガイドラインを説明することが目標です。
本稿では, 音声処理分野から抽出した例と, それぞれの側面に共通する誤りの一覧を示す。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - One Model Many Scores: Using Multiverse Analysis to Prevent Fairness Hacking and Evaluate the Influence of Model Design Decisions [4.362723406385396]
設計と評価の決定の公平さをよりよく理解するために,多変量解析をどのように利用できるかを示す。
結果から,システム評価に関する決定が,同じモデルに対して,極めて異なる公平度指標を導出する可能性を強調した。
論文 参考訳(メタデータ) (2023-08-31T12:32:43Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - Injecting Planning-Awareness into Prediction and Detection Evaluation [42.228191984697006]
私たちは一歩後退して、現在の評価指標を批判的に評価し、タスク対応メトリクスを、デプロイされるシステムのパフォーマンスのより良い測定基準として提案します。
実世界の自律運転データとともに、実世界のシミュレーション実験により、提案したタスク認識メトリクスが結果非対称性を考慮でき、モデルのクローズドループ性能をよりよく推定できることを確認した。
論文 参考訳(メタデータ) (2021-10-07T08:52:48Z) - Information Theoretic Measures for Fairness-aware Feature Selection [27.06618125828978]
我々は,特徴の精度と識別的影響に関する情報理論に基づく,公平性を考慮した特徴選択のためのフレームワークを開発する。
具体的には、この機能が正確性や非差別的判断にどのように影響するかを定量化する、各機能に対する公平性ユーティリティスコアを設計することを目的としています。
論文 参考訳(メタデータ) (2021-06-01T20:11:54Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Counterfactual Predictions under Runtime Confounding [74.90756694584839]
本研究は, 過去のデータからすべての関連要因を抽出した環境で, 事実予測タスクについて検討する。
本稿では,この環境下での対実予測モデル学習のための2次ロバスト手法を提案する。
論文 参考訳(メタデータ) (2020-06-30T15:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。