論文の概要: AI Total: Analyzing Security ML Models with Imperfect Data in Production
- arxiv url: http://arxiv.org/abs/2110.07028v1
- Date: Wed, 13 Oct 2021 20:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 08:37:45.447326
- Title: AI Total: Analyzing Security ML Models with Imperfect Data in Production
- Title(参考訳): AIトータル:不完全なデータによるセキュリティMLモデルの解析
- Authors: Awalin Sopan and Konstantin Berlin
- Abstract要約: 新しい機械学習モデルの開発は通常、手動でキュレートされたデータセット上で行われる。
本研究では,ユーザによるヘッドライン性能数値の収集を可能にするWebベースの可視化システムを開発した。
また,何か問題が発生した場合に,問題の根本原因を即座に観察することも可能だ。
- 参考スコア(独自算出の注目度): 2.629585075202626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Development of new machine learning models is typically done on manually
curated data sets, making them unsuitable for evaluating the models'
performance during operations, where the evaluation needs to be performed
automatically on incoming streams of new data. Unfortunately, pure reliance on
a fully automatic pipeline for monitoring model performance makes it difficult
to understand if any observed performance issues are due to model performance,
pipeline issues, emerging data distribution biases, or some combination of the
above. With this in mind, we developed a web-based visualization system that
allows the users to quickly gather headline performance numbers while
maintaining confidence that the underlying data pipeline is functioning
properly. It also enables the users to immediately observe the root cause of an
issue when something goes wrong. We introduce a novel way to analyze
performance under data issues using a data coverage equalizer. We describe the
various modifications and additional plots, filters, and drill-downs that we
added on top of the standard evaluation metrics typically tracked in machine
learning (ML) applications, and walk through some real world examples that
proved valuable for introspecting our models.
- Abstract(参考訳): 新しい機械学習モデルの開発は通常、手動でキュレートされたデータセット上で行われ、新しいデータの入ってくるストリームに対して自動的に評価を行う必要がある運用中のモデルのパフォーマンスを評価するのに適さない。
残念ながら、モデルパフォーマンスを監視するための完全な自動パイプラインに完全に依存しているため、観察されたパフォーマンス上の問題がモデルパフォーマンスやパイプラインの問題、新たなデータ分散バイアス、あるいは上記の組み合わせに起因するかどうかを理解するのは難しい。
そこで我々は,Web ベースの可視化システムを開発した。これによりユーザは,基礎となるデータパイプラインが適切に機能していることの信頼性を維持しながら,ヘッドラインのパフォーマンスを迅速に収集できる。
問題が発生した場合の根本原因を,ユーザが即座に監視することも可能だ。
本稿では,データカバレッジイコライザを用いたデータ問題下での性能解析手法を提案する。
私たちは、機械学習(ml)アプリケーションで一般的に追跡される標準評価メトリクスの上に追加した、さまざまな変更と追加のプロット、フィルタ、ドリルダウンを説明し、モデル内イントロスペクションに価値のある実例をいくつか紹介します。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data [9.57464542357693]
実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、モデル中心の評価は偏りがあることを実証する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
データセット固有の機能エンジニアリングの後、モデルランキングは大幅に変化し、性能差が減少し、モデル選択の重要性が低下する。
論文 参考訳(メタデータ) (2024-07-02T09:54:39Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Generalizable Error Modeling for Human Data Annotation: Evidence From an Industry-Scale Search Data Annotation Program [0.0]
本稿では,検索関連アノテーションタスクにおける潜在的なエラーを検出するために訓練された予測誤差モデルを提案する。
そこで本研究では,中程度のモデル性能(AUC=0.65-0.75)で誤差を予測できることを示す。
本稿では,高い予測誤差確率のタスクを優先することで,修正されたアノテーションエラーの量を大幅に増加させるという,監査の文脈におけるモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-10-08T21:21:19Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - MAIN: Multihead-Attention Imputation Networks [4.427447378048202]
本稿では,任意のモデルに適用可能なマルチヘッドアテンションに基づく新しいメカニズムを提案する。
提案手法は、下流タスクの性能を向上させるために、入力データの欠落パターンを誘導的にモデル化する。
論文 参考訳(メタデータ) (2021-02-10T13:50:02Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - Self-Updating Models with Error Remediation [0.5156484100374059]
我々は、デプロイされたモデルが新しいデータが利用可能になると、自身を更新するフレームワーク、Self-Updating Models with Error Remediation (SUMER)を提案する。
SUMERの重要な構成要素は、自己ラベル付きデータがエラーの伝播に影響を受けやすいため、エラー修正の概念である。
自己更新モデル(Self-updating Model, SUM)は, 前例のない追加データを提示しても, 自己更新を行おうとしないモデルよりも, 一般的に優れている。
論文 参考訳(メタデータ) (2020-05-19T23:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。