Fugu-MT 論文翻訳(概要): Model Assertions for Monitoring and Improving ML Models

論文の概要: Model Assertions for Monitoring and Improving ML Models

arxiv url: http://arxiv.org/abs/2003.01668v3
Date: Wed, 11 Mar 2020 23:30:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-26 21:49:32.827883
Title: Model Assertions for Monitoring and Improving ML Models
Title（参考訳）: MLモデルのモニタリングと改善のためのモデルアサーション
Authors: Daniel Kang, Deepti Raghavan, Peter Bailis, Matei Zaharia
Abstract要約: 本稿では,MLモデルの監視と改善を行う手段として,プログラムアサーションの古典的利用に適応した新しい抽象化,モデルアサーションを提案する。モデルアサーションは、モデルがいつエラーが発生したかを示す入力と出力の任意の関数である。本稿では,ランタイム監視,ラベルの検証,MLモデルの継続的な改善など,MLシステムデプロイメントのすべての段階におけるモデルアサーションの使用方法を提案する。
参考スコア（独自算出の注目度）: 26.90089824436192
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: ML models are increasingly deployed in settings with real world interactions such as vehicles, but unfortunately, these models can fail in systematic ways. To prevent errors, ML engineering teams monitor and continuously improve these models. We propose a new abstraction, model assertions, that adapts the classical use of program assertions as a way to monitor and improve ML models. Model assertions are arbitrary functions over a model's input and output that indicate when errors may be occurring, e.g., a function that triggers if an object rapidly changes its class in a video. We propose methods of using model assertions at all stages of ML system deployment, including runtime monitoring, validating labels, and continuously improving ML models. For runtime monitoring, we show that model assertions can find high confidence errors, where a model returns the wrong output with high confidence, which uncertainty-based monitoring techniques would not detect. For training, we propose two methods of using model assertions. First, we propose a bandit-based active learning algorithm that can sample from data flagged by assertions and show that it can reduce labeling costs by up to 40% over traditional uncertainty-based methods. Second, we propose an API for generating "consistency assertions" (e.g., the class change example) and weak labels for inputs where the consistency assertions fail, and show that these weak labels can improve relative model quality by up to 46%. We evaluate model assertions on four real-world tasks with video, LIDAR, and ECG data.
Abstract（参考訳）: MLモデルは、車のような現実世界のインタラクションの設定にますますデプロイされているが、残念ながら、これらのモデルは体系的な方法で失敗する可能性がある。エラーを防止するため、MLエンジニアリングチームはこれらのモデルを監視し、継続的に改善する。本稿では,MLモデルの監視と改善を行う手段として,プログラムアサーションの古典的利用に適応した新しい抽象化,モデルアサーションを提案する。モデルアサーション(英: Model assertions)は、オブジェクトがビデオのクラスを素早く変更した場合にトリガーする関数など、エラーが発生する可能性があることを示すモデルの入力と出力に対する任意の関数である。本稿では,ランタイム監視,ラベルの検証,MLモデルの継続的な改善など,MLシステムデプロイメントのすべての段階におけるモデルアサーションの使用方法を提案する。実行時モニタリングでは、モデルアサーションが高い信頼性エラーを見つけ、モデルが間違った出力を高い信頼性で返却し、不確実性に基づくモニタリング技術では検出できないことを示す。トレーニングにはモデルアサーションを使用する2つの方法を提案する。まず,アサーションによってフラグ付けされたデータからサンプルを抽出し,従来の不確実性に基づく手法に比べてラベル付けコストを最大40%削減できることを示す。次に、一貫性アサーションが失敗する入力に対して、一貫性アサーション(例えば、クラス変更例)と弱いラベルを生成するAPIを提案し、これらの弱いラベルが相対モデルの品質を最大46%向上させることができることを示す。我々は,ビデオ,LIDAR,ECGデータを用いた実世界の4つのタスクにおけるモデルアサーションを評価する。

関連論文リスト

Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [14.779177849006963]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文参考訳（メタデータ） (2025-07-31T21:04:12Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。 DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-08-01T07:08:11Z)
Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文参考訳（メタデータ） (2024-04-26T03:41:28Z)
AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文参考訳（メタデータ） (2023-04-07T08:50:18Z)
Monitoring Model Deterioration with Explainable Uncertainty Estimation via Non-parametric Bootstrap [0.0]
一度デプロイされた機械学習モデルを監視することは難しい。ラベル付きデータが到達範囲を超えている場合、実際のシナリオでモデルをいつ再トレーニングするかを判断するのはさらに難しい。本研究では,非パラメトリックブートストラップ型不確実性推定とSHAP値を用いて説明可能な不確実性推定を行う。
論文参考訳（メタデータ） (2022-01-27T17:23:04Z)
Scanflow: A multi-graph framework for Machine Learning workflow management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文参考訳（メタデータ） (2021-11-04T17:01:12Z)
Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文参考訳（メタデータ） (2021-10-06T13:43:27Z)
Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。回帰フリーモデル更新を制約付き最適化問題に定式化する。モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文参考訳（メタデータ） (2021-05-07T03:33:00Z)
Defuse: Harnessing Unrestricted Adversarial Examples for Debugging Models Beyond Test Accuracy [11.265020351747916]
Defuseは、テストデータ以外のモデルエラーを自動的に検出し、修正する手法である。本稿では, 生成モデルを用いて, モデルによって誤分類された自然発生事例を探索する逆機械学習手法に着想を得たアルゴリズムを提案する。 Defuseはテストセットの一般化を維持しながら、微調整後のエラーを修正する。
論文参考訳（メタデータ） (2021-02-11T18:08:42Z)
Probing Model Signal-Awareness via Prediction-Preserving Input Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。 SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文参考訳（メタデータ） (2020-11-25T20:05:23Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)
Fast and Three-rious: Speeding Up Weak Supervision with Triplet Methods [24.190587751595455]
弱監督は、基底的真理アノテーションに頼ることなく機械学習モデルを構築する一般的な方法である。既存の手法では、雑音源をモデル化するために潜時変数推定を用いる。弱監督に高度に適用可能な潜在変数モデルのクラスについて、モデルパラメータに対する閉形式解を見つけることができることを示す。この洞察を使ってFlyingSquidを構築します。FlyingSquidは、以前の弱い監視アプローチよりも桁違いに高速に実行される弱い監視フレームワークです。
論文参考訳（メタデータ） (2020-02-27T07:51:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。