論文の概要: Evaluation Gaps in Machine Learning Practice
- arxiv url: http://arxiv.org/abs/2205.05256v1
- Date: Wed, 11 May 2022 04:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 07:24:33.820028
- Title: Evaluation Gaps in Machine Learning Practice
- Title(参考訳): 機械学習実践における評価ギャップ
- Authors: Ben Hutchinson, Negar Rostamzadeh, Christina Greer, Katherine Heller,
Vinodkumar Prabhakaran
- Abstract要約: 実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
- 参考スコア(独自算出の注目度): 13.963766987258161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forming a reliable judgement of a machine learning (ML) model's
appropriateness for an application ecosystem is critical for its responsible
use, and requires considering a broad range of factors including harms,
benefits, and responsibilities. In practice, however, evaluations of ML models
frequently focus on only a narrow range of decontextualized predictive
behaviours. We examine the evaluation gaps between the idealized breadth of
evaluation concerns and the observed narrow focus of actual evaluations.
Through an empirical study of papers from recent high-profile conferences in
the Computer Vision and Natural Language Processing communities, we demonstrate
a general focus on a handful of evaluation methods. By considering the metrics
and test data distributions used in these methods, we draw attention to which
properties of models are centered in the field, revealing the properties that
are frequently neglected or sidelined during evaluation. By studying these
properties, we demonstrate the machine learning discipline's implicit
assumption of a range of commitments which have normative impacts; these
include commitments to consequentialism, abstractability from context, the
quantifiability of impacts, the limited role of model inputs in evaluation, and
the equivalence of different failure modes. Shedding light on these assumptions
enables us to question their appropriateness for ML system contexts, pointing
the way towards more contextualized evaluation methodologies for robustly
examining the trustworthiness of ML models
- Abstract(参考訳): 機械学習(ML)モデルのアプリケーションエコシステムに対する適切性に対する信頼性の高い判断を形成することは、その責任を負う上で重要であり、害、利益、責任を含む幅広い要因を検討する必要がある。
しかし実際には、MLモデルの評価は、限られた範囲の非文脈化予測行動のみに焦点を当てることが多い。
評価対象の理想化範囲と実際の評価対象の狭間における評価ギャップについて検討した。
コンピュータビジョンと自然言語処理のコミュニティにおける最近の著名なカンファレンスの論文の実証研究を通じて、我々はいくつかの評価手法に焦点をあてた。
これらの手法で使用されるメトリクスとテストデータ分布を考慮し、フィールドにどの特性が集中しているかを注意し、評価中に頻繁に無視されるか、あるいは傍観される性質を明らかにする。
これらの特性を研究することで、機械学習分野が規範的な影響を持つコミットメントの範囲を暗黙的に仮定することを示し、これには連続性へのコミットメント、文脈からの抽象可能性、影響の定量性、評価におけるモデル入力の限られた役割、異なる障害モードの等価性が含まれる。
これらの仮定に光を当てることで、MLモデルの信頼性をしっかりと検証するための、より文脈化された評価手法への道を指して、MLシステムコンテキストに対する彼らの適切性に疑問を呈することができる。
- 全文 参考訳へのリンク
関連論文リスト
- Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Simple Control Baselines for Evaluating Transfer Learning [1.0499611180329802]
我々は,伝達学習のパフォーマンスを定量化し,伝達することを目的とした評価基準を共有している。
自己教師型学習に関するいくつかの基本的な質問について,実証的研究を例に紹介する。
論文 参考訳(メタデータ) (2022-02-07T17:26:26Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Thinking Beyond Distributions in Testing Machine Learned Models [13.723244709042874]
機械学習(ML)コミュニティにおけるテストプラクティスは、テストデータセットに対して測定された学習モデルの予測パフォーマンスを評価することに集中している。
このテストの観点は、研究者や開発者が他の堅牢性障害源を調査することを積極的に妨げている、と私たちは主張する。
我々は、厳格な実践に機械学習テストの視点を広げるための一連の勧告を提示した。
論文 参考訳(メタデータ) (2021-12-06T14:03:48Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [82.4156635056267]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Measuring Fairness under Unawareness via Quantification [124.07402954603518]
センシティブな属性の無意識下でのグループフェアネスを測定する問題に取り組む。
我々は,グループレベルの有病率推定を直接提供することを目的とした教師付き学習課題である量子化(quantification)の手法を用いる。
また、個人レベルで感度特性を推定する潜在的なモデル誤用の問題についても検討する。
論文 参考訳(メタデータ) (2021-09-17T13:45:46Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Understanding Interpretability by generalized distillation in Supervised
Classification [3.5473853445215897]
最近の解釈戦略は、複雑な機械学習モデルの根底にある決定メカニズムの人間の理解に焦点を当てている。
本稿では,他のMLモデルと相対的に定義される解釈・蒸留式を提案する。
MNIST、Fashion-MNIST、Stanford40データセットに関する提案フレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-12-05T17:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。