論文の概要: Firenze: Model Evaluation Using Weak Signals
- arxiv url: http://arxiv.org/abs/2207.00827v1
- Date: Sat, 2 Jul 2022 13:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 14:04:21.848472
- Title: Firenze: Model Evaluation Using Weak Signals
- Title(参考訳): Firenze: 弱信号を用いたモデル評価
- Authors: Bhavna Soman, Ali Torkamani, Michael J. Morais, Jeffrey Bickford,
Baris Coskun
- Abstract要約: 本稿では,機械学習モデルの性能比較のための新しいフレームワークFirenzeを紹介する。
興味領域と呼ばれるサンプルの特定のサブセットに対して計算・結合されたマーカーは、実世界のパフォーマンスを頑健に見積もることができることを示す。
- 参考スコア(独自算出の注目度): 5.723905680436377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data labels in the security field are frequently noisy, limited, or biased
towards a subset of the population. As a result, commonplace evaluation methods
such as accuracy, precision and recall metrics, or analysis of performance
curves computed from labeled datasets do not provide sufficient confidence in
the real-world performance of a machine learning (ML) model. This has slowed
the adoption of machine learning in the field. In the industry today, we rely
on domain expertise and lengthy manual evaluation to build this confidence
before shipping a new model for security applications. In this paper, we
introduce Firenze, a novel framework for comparative evaluation of ML models'
performance using domain expertise, encoded into scalable functions called
markers. We show that markers computed and combined over select subsets of
samples called regions of interest can provide a robust estimate of their
real-world performances. Critically, we use statistical hypothesis testing to
ensure that observed differences-and therefore conclusions emerging from our
framework-are more prominent than that observable from the noise alone. Using
simulations and two real-world datasets for malware and domain-name-service
reputation detection, we illustrate our approach's effectiveness, limitations,
and insights. Taken together, we propose Firenze as a resource for fast,
interpretable, and collaborative model development and evaluation by mixed
teams of researchers, domain experts, and business owners.
- Abstract(参考訳): セキュリティ分野のデータラベルは、しばしばうるさい、限られた、あるいは人口のサブセットに偏っている。
その結果、ラベル付きデータセットから計算された性能曲線の分析や精度、精度、リコール指標などの一般的な評価手法は、機械学習(ML)モデルの実際の性能に十分な信頼を与えていない。
これにより、この分野における機械学習の採用が遅くなった。
今日の業界では、セキュリティアプリケーションに新しいモデルを出荷する前に、この信頼性を構築するために、ドメインの専門知識と長い手作業による評価に依存しています。
本稿では,機械学習モデルの性能をドメインの専門知識を用いて比較評価する新しいフレームワークFirenzeを紹介し,マーカーと呼ばれるスケーラブルな関数にエンコードする。
興味領域と呼ばれるサンプルのサブセットを計算し、組み合わせたマーカーが実世界のパフォーマンスを堅牢に評価できることを示す。
重要な点として、観測された差分が我々のフレームワークから生じる結論が、ノイズ単独で観測できるものよりも顕著であることを保証するために統計的仮説テストを使用します。
マルウェアおよびドメイン名サービス評価検出のためのシミュレーションと2つの実世界のデータセットを用いて,本手法の有効性,限界,洞察を明らかにした。
研究者,ドメインエキスパート,ビジネスオーナの混合チームによる,迅速な,解釈可能な,協調的なモデル開発と評価のためのリソースとして,firenzeを提案する。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Determining Domain of Machine Learning Models using Kernel Density Estimates: Applications in Materials Property Prediction [1.8551396341435895]
我々は,カーネル密度推定を用いたモデル領域の評価手法を開発した。
確立された化学知識に基づく無関係と判断された化学物質群は,本測定値と有意な相違が認められた。
相違性の高い尺度は、モデル性能の低さとモデル不確実性の評価の低さと関連している。
論文 参考訳(メタデータ) (2024-05-28T15:41:16Z) - Test-time Assessment of a Model's Performance on Unseen Domains via Optimal Transport [8.425690424016986]
テスト時に見えないドメインのデータに対して、MLモデルのパフォーマンスを評価することが不可欠です。
テスト時にモデルのパフォーマンスを洞察できるメトリクスを開発することが不可欠です。
本稿では,未知領域におけるモデルの性能と高い相関関係を持つ最適輸送量に基づく計量を提案する。
論文 参考訳(メタデータ) (2024-05-02T16:35:07Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - DATa: Domain Adaptation-Aided Deep Table Detection Using Visual-Lexical
Representations [2.542864854772221]
DATaと呼ばれる新しいドメイン適応型ディープテーブル検出手法を提案する。
信頼できるラベルがほとんどない特定のターゲットドメインで十分なパフォーマンスを保証します。
実験の結果,DATaは対象領域における視覚的表現のみを利用する競合手法よりもかなり優れていた。
論文 参考訳(メタデータ) (2022-11-12T12:14:16Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Who Explains the Explanation? Quantitatively Assessing Feature
Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。
ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。
実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文 参考訳(メタデータ) (2021-09-28T07:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。