論文の概要: Post-hoc Models for Performance Estimation of Machine Learning Inference
- arxiv url: http://arxiv.org/abs/2110.02459v1
- Date: Wed, 6 Oct 2021 02:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 05:51:27.580527
- Title: Post-hoc Models for Performance Estimation of Machine Learning Inference
- Title(参考訳): 機械学習推論の性能推定のためのポストホックモデル
- Authors: Xuechen Zhang, Samet Oymak, Jiasi Chen
- Abstract要約: さまざまなシナリオにおいて、推論中に機械学習モデルがどれだけうまく機能するかを推定することが重要である。
性能評価をさまざまなメトリクスやシナリオに体系的に一般化する。
提案したポストホックモデルは標準信頼ベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 22.977047604404884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating how well a machine learning model performs during inference is
critical in a variety of scenarios (for example, to quantify uncertainty, or to
choose from a library of available models). However, the standard accuracy
estimate of softmax confidence is not versatile and cannot reliably predict
different performance metrics (e.g., F1-score, recall) or the performance in
different application scenarios or input domains. In this work, we
systematically generalize performance estimation to a diverse set of metrics
and scenarios and discuss generalized notions of uncertainty calibration. We
propose the use of post-hoc models to accomplish this goal and investigate
design parameters, including the model type, feature engineering, and
performance metric, to achieve the best estimation quality. Emphasis is given
to object detection problems and, unlike prior work, our approach enables the
estimation of per-image metrics such as recall and F1-score. Through extensive
experiments with computer vision models and datasets in three use cases --
mobile edge offloading, model selection, and dataset shift -- we find that
proposed post-hoc models consistently outperform the standard calibrated
confidence baselines. To the best of our knowledge, this is the first work to
develop a unified framework to address different performance estimation
problems for machine learning inference.
- Abstract(参考訳): 推論中に機械学習モデルがどのように機能するかを見積もるのは、さまざまなシナリオ(不確実性を定量化する、あるいは利用可能なモデルのライブラリから選択するなど)において非常に重要です。
しかし、ソフトマックス信頼性の標準的な精度推定は汎用的ではなく、異なるパフォーマンス指標(例えば、F1スコア、リコール)や異なるアプリケーションシナリオや入力ドメインのパフォーマンスを確実に予測することはできない。
本研究では,様々な指標とシナリオに対する性能推定を体系的に一般化し,不確実性校正の一般化概念について考察する。
本稿では,この目標を達成するためにポストホックモデルを使用し,モデルタイプ,特徴工学,性能指標を含む設計パラメータを調査し,最適な推定品質を達成することを提案する。
オブジェクト検出問題に重点を置いており、従来の手法とは異なり、リコールやF1スコアといった画像単位のメトリクスを推定できる。
コンピュータビジョンモデルとデータセットによる3つのユースケース(モバイルエッジオフロード、モデル選択、データセットシフト)による広範な実験を通じて、提案されたポストホックモデルは、標準のキャリブレーションされた信頼性ベースラインを一貫して上回ることがわかった。
我々の知る限りでは、機械学習推論のための異なる性能推定問題に対処する統一的なフレームワークを開発する最初の試みである。
関連論文リスト
- Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Estimating Model Performance under Domain Shifts with Class-Specific
Confidence Scores [25.162667593654206]
不均衡なデータセットのパフォーマンス推定の枠組みの中で,クラスワイドキャリブレーションを導入する。
我々は、4つのタスクの実験を行い、提案した修正により、不均衡なデータセットの推定精度を一貫して改善する。
論文 参考訳(メタデータ) (2022-07-20T15:04:32Z) - Model Comparison and Calibration Assessment: User Guide for Consistent
Scoring Functions in Machine Learning and Actuarial Practice [0.0]
本発明のユーザガイドは、モデルの校正や妥当性を評価する統計的手法を再検討し、明確化する。
主に既存の成果とベストプラクティスの教育的な提示に焦点を当てている。
結果は、労働者の報酬と顧客の混乱に関する2つの実データケーススタディに伴って説明される。
論文 参考訳(メタデータ) (2022-02-25T15:52:19Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。