論文の概要: FreaAI: Automated extraction of data slices to test machine learning
models
- arxiv url: http://arxiv.org/abs/2108.05620v1
- Date: Thu, 12 Aug 2021 09:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 23:41:20.167770
- Title: FreaAI: Automated extraction of data slices to test machine learning
models
- Title(参考訳): FreaAI: 機械学習モデルをテストするためのデータスライスの自動抽出
- Authors: Samuel Ackerman, Orna Raz, Marcel Zalmanovici
- Abstract要約: 本稿では,ML ソリューションが動作しない説明可能なデータスライスを実現する機能モデルの自動抽出の実現可能性を示す。
我々の新しい技術であるIBM FreaAI aka FreaAIは、構造化MLテストデータや他のラベル付きデータからそのようなスライスを抽出する。
- 参考スコア(独自算出の注目度): 2.475112368179548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) solutions are prevalent. However, many challenges exist
in making these solutions business-grade. One major challenge is to ensure that
the ML solution provides its expected business value. In order to do that, one
has to bridge the gap between the way ML model performance is measured and the
solution requirements. In previous work (Barash et al, "Bridging the gap...")
we demonstrated the effectiveness of utilizing feature models in bridging this
gap. Whereas ML performance metrics, such as the accuracy or F1-score of a
classifier, typically measure the average ML performance, feature models shed
light on explainable data slices that are too far from that average, and
therefore might indicate unsatisfied requirements. For example, the overall
accuracy of a bank text terms classifier may be very high, say $98\% \pm 2\%$,
yet it might perform poorly for terms that include short descriptions and
originate from commercial accounts. A business requirement, which may be
implicit in the training data, may be to perform well regardless of the type of
account and length of the description. Therefore, the under-performing data
slice that includes short descriptions and commercial accounts suggests
poorly-met requirements. In this paper we show the feasibility of automatically
extracting feature models that result in explainable data slices over which the
ML solution under-performs. Our novel technique, IBM FreaAI aka FreaAI,
extracts such slices from structured ML test data or any other labeled data. We
demonstrate that FreaAI can automatically produce explainable and
statistically-significant data slices over seven open datasets.
- Abstract(参考訳): 機械学習(ML)ソリューションが一般的である。
しかし、これらのソリューションをビジネスグレードにする上で、多くの課題が存在する。
大きな課題のひとつは、MLソリューションがその期待されるビジネス価値を提供するようにすることだ。
そのためには、MLモデルのパフォーマンスの測定方法とソリューション要件のギャップを埋める必要があります。
以前の研究 (barash et al, "bridging the gap...") では,このギャップを橋渡しする上で,機能モデルの有効性を実証した。
分類器の精度やF1スコアなどのMLパフォーマンス指標は、平均的なMLパフォーマンスを測定するのが一般的だが、機能モデルは、その平均から遠すぎる説明可能なデータスライスに光を当てたため、満足できない要求を示す可能性がある。
例えば、銀行のテキスト用語分類器の全体的な精度は非常に高く、例えば$98\% \pm 2\%$であるが、短い説明や商業口座に由来する用語ではうまく機能しない。
トレーニングデータに暗黙的な可能性のあるビジネス要件は、説明のタイプや説明の長さに関係なくうまく機能することかもしれません。
したがって、短い説明と商用アカウントを含むパフォーマンスの低いデータスライスは、不適切な要件を示唆している。
そこで本研究では,ml ソリューションがアンダーパーフォーミングするデータスライスを導出する特徴モデルを自動的に抽出する可能性を示す。
我々の新しい技術であるIBM FreaAI aka FreaAIは、構造化MLテストデータや他のラベル付きデータからそのようなスライスを抽出する。
FreaAIは、7つのオープンデータセット上で、説明可能な統計的に重要なデータスライスを自動生成できることを実証する。
関連論文リスト
- Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Let's Predict Who Will Move to a New Job [0.0]
機械学習を使って、誰が新しい仕事に移行するかを予測する方法について論じる。
データはMLモデルに適したフォーマットに前処理される。
モデルは、精度、リコール、F1スコア、精度などの意思決定支援メトリクスを使用して評価される。
論文 参考訳(メタデータ) (2023-09-15T11:43:09Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference
Pipeline [2.0813318162800707]
我々は,新しい効率的かつゼロ知識の機械学習推論スキームであるezDPSを提案する。
ezDPSはzkMLパイプラインで、データを複数のステージで高精度に処理する。
ezDPSは,全測定値における一般的な回路ベース手法よりも1~3桁効率が高いことを示す。
論文 参考訳(メタデータ) (2022-12-11T06:47:28Z) - Classifier Data Quality: A Geometric Complexity Based Method for
Automated Baseline And Insights Generation [4.722075132982135]
主な課題は、モデルの精度や分類器のF1スコアなどの誤りのレベルが受け入れられるかどうかを決定することである。
我々は、与えられた観測が真のクラスラベルに割り当てるのがいかに困難であるかを定量化する複雑性測定法を開発した。
これらの尺度は、線形計算コストに対して、各観測の分類複雑性を説明可能な形で定量化するという点において、ベストプラクティスのベースラインよりも優れている。
論文 参考訳(メタデータ) (2021-12-22T12:17:08Z) - Machine Learning Model Drift Detection Via Weak Data Slices [5.319802998033767]
本研究では,データスライスと呼ばれる特徴空間規則を用いてドリフト検出を行う手法を提案する。
提案手法は,基礎となるデータの変化に基づいて,MLモデルが性能を変化させる可能性が示唆される。
論文 参考訳(メタデータ) (2021-08-11T16:55:34Z) - Insights into Performance Fitness and Error Metrics for Machine Learning [1.827510863075184]
機械学習(ML)は、高いレベルの認知を達成し、人間のような分析を行うための訓練機械の分野である。
本稿では、回帰アルゴリズムや分類アルゴリズムにおいて、最もよく使われている性能適合度と誤差の測定値について検討する。
論文 参考訳(メタデータ) (2020-05-17T22:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。