論文の概要: Model Assertions for Monitoring and Improving ML Models
- arxiv url: http://arxiv.org/abs/2003.01668v3
- Date: Wed, 11 Mar 2020 23:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 21:49:32.827883
- Title: Model Assertions for Monitoring and Improving ML Models
- Title(参考訳): MLモデルのモニタリングと改善のためのモデルアサーション
- Authors: Daniel Kang, Deepti Raghavan, Peter Bailis, Matei Zaharia
- Abstract要約: 本稿では,MLモデルの監視と改善を行う手段として,プログラムアサーションの古典的利用に適応した新しい抽象化,モデルアサーションを提案する。
モデルアサーションは、モデルがいつエラーが発生したかを示す入力と出力の任意の関数である。
本稿では,ランタイム監視,ラベルの検証,MLモデルの継続的な改善など,MLシステムデプロイメントのすべての段階におけるモデルアサーションの使用方法を提案する。
- 参考スコア(独自算出の注目度): 26.90089824436192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ML models are increasingly deployed in settings with real world interactions
such as vehicles, but unfortunately, these models can fail in systematic ways.
To prevent errors, ML engineering teams monitor and continuously improve these
models. We propose a new abstraction, model assertions, that adapts the
classical use of program assertions as a way to monitor and improve ML models.
Model assertions are arbitrary functions over a model's input and output that
indicate when errors may be occurring, e.g., a function that triggers if an
object rapidly changes its class in a video. We propose methods of using model
assertions at all stages of ML system deployment, including runtime monitoring,
validating labels, and continuously improving ML models. For runtime
monitoring, we show that model assertions can find high confidence errors,
where a model returns the wrong output with high confidence, which
uncertainty-based monitoring techniques would not detect. For training, we
propose two methods of using model assertions. First, we propose a bandit-based
active learning algorithm that can sample from data flagged by assertions and
show that it can reduce labeling costs by up to 40% over traditional
uncertainty-based methods. Second, we propose an API for generating
"consistency assertions" (e.g., the class change example) and weak labels for
inputs where the consistency assertions fail, and show that these weak labels
can improve relative model quality by up to 46%. We evaluate model assertions
on four real-world tasks with video, LIDAR, and ECG data.
- Abstract(参考訳): MLモデルは、車のような現実世界のインタラクションの設定にますますデプロイされているが、残念ながら、これらのモデルは体系的な方法で失敗する可能性がある。
エラーを防止するため、MLエンジニアリングチームはこれらのモデルを監視し、継続的に改善する。
本稿では,MLモデルの監視と改善を行う手段として,プログラムアサーションの古典的利用に適応した新しい抽象化,モデルアサーションを提案する。
モデルアサーション(英: Model assertions)は、オブジェクトがビデオのクラスを素早く変更した場合にトリガーする関数など、エラーが発生する可能性があることを示すモデルの入力と出力に対する任意の関数である。
本稿では,ランタイム監視,ラベルの検証,MLモデルの継続的な改善など,MLシステムデプロイメントのすべての段階におけるモデルアサーションの使用方法を提案する。
実行時モニタリングでは、モデルアサーションが高い信頼性エラーを見つけ、モデルが間違った出力を高い信頼性で返却し、不確実性に基づくモニタリング技術では検出できないことを示す。
トレーニングにはモデルアサーションを使用する2つの方法を提案する。
まず,アサーションによってフラグ付けされたデータからサンプルを抽出し,従来の不確実性に基づく手法に比べてラベル付けコストを最大40%削減できることを示す。
次に、一貫性アサーションが失敗する入力に対して、一貫性アサーション(例えば、クラス変更例)と弱いラベルを生成するAPIを提案し、これらの弱いラベルが相対モデルの品質を最大46%向上させることができることを示す。
我々は,ビデオ,LIDAR,ECGデータを用いた実世界の4つのタスクにおけるモデルアサーションを評価する。
関連論文リスト
- DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Monitoring Model Deterioration with Explainable Uncertainty Estimation
via Non-parametric Bootstrap [0.0]
一度デプロイされた機械学習モデルを監視することは難しい。
ラベル付きデータが到達範囲を超えている場合、実際のシナリオでモデルをいつ再トレーニングするかを判断するのはさらに難しい。
本研究では,非パラメトリックブートストラップ型不確実性推定とSHAP値を用いて説明可能な不確実性推定を行う。
論文 参考訳(メタデータ) (2022-01-27T17:23:04Z) - Scanflow: A multi-graph framework for Machine Learning workflow
management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。
このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文 参考訳(メタデータ) (2021-11-04T17:01:12Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z) - Defuse: Harnessing Unrestricted Adversarial Examples for Debugging
Models Beyond Test Accuracy [11.265020351747916]
Defuseは、テストデータ以外のモデルエラーを自動的に検出し、修正する手法である。
本稿では, 生成モデルを用いて, モデルによって誤分類された自然発生事例を探索する逆機械学習手法に着想を得たアルゴリズムを提案する。
Defuseはテストセットの一般化を維持しながら、微調整後のエラーを修正する。
論文 参考訳(メタデータ) (2021-02-11T18:08:42Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Fast and Three-rious: Speeding Up Weak Supervision with Triplet Methods [24.190587751595455]
弱監督は、基底的真理アノテーションに頼ることなく機械学習モデルを構築する一般的な方法である。
既存の手法では、雑音源をモデル化するために潜時変数推定を用いる。
弱監督に高度に適用可能な潜在変数モデルのクラスについて、モデルパラメータに対する閉形式解を見つけることができることを示す。
この洞察を使ってFlyingSquidを構築します。FlyingSquidは、以前の弱い監視アプローチよりも桁違いに高速に実行される弱い監視フレームワークです。
論文 参考訳(メタデータ) (2020-02-27T07:51:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。