論文の概要: Data Synthesis for Testing Black-Box Machine Learning Models
- arxiv url: http://arxiv.org/abs/2111.02161v1
- Date: Wed, 3 Nov 2021 12:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 12:43:03.369515
- Title: Data Synthesis for Testing Black-Box Machine Learning Models
- Title(参考訳): ブラックボックス機械学習モデルテストのためのデータ合成
- Authors: Diptikalyan Saha, Aniya Aggarwal, Sandeep Hans
- Abstract要約: 機械学習モデルの利用の増加は、これらのモデルの信頼性に関する疑問を提起する。
本稿では、ブラックボックスML/DLモデルをテストするための自動テストデータ合成のためのフレームワークを提供する。
- 参考スコア(独自算出の注目度): 2.3800397174740984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing usage of machine learning models raises the question of the
reliability of these models. The current practice of testing with limited data
is often insufficient. In this paper, we provide a framework for automated test
data synthesis to test black-box ML/DL models. We address an important
challenge of generating realistic user-controllable data with model agnostic
coverage criteria to test a varied set of properties, essentially to increase
trust in machine learning models. We experimentally demonstrate the
effectiveness of our technique.
- Abstract(参考訳): 機械学習モデルの利用の増加は、これらのモデルの信頼性に関する疑問を提起する。
限られたデータでテストする現在のプラクティスはしばしば不十分です。
本稿では、ブラックボックスML/DLモデルをテストするための自動テストデータ合成のためのフレームワークを提供する。
モデルに依存しないカバレッジ基準で現実的なユーザコントロール可能なデータを生成するという重要な課題に対処し、さまざまな特性のセットをテストする。
本手法の有効性を実験的に実証する。
関連論文リスト
- Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - Can You Rely on Your Model Evaluation? Improving Model Evaluation with
Synthetic Test Data [75.20035991513564]
本稿では,モデル評価を容易にする深層生成モデリングフレームワークである3Sテストを紹介する。
私たちの実験では、3Sテストが従来のベースラインより優れていることが示されています。
これらの結果は、限られた実テストデータから合成テストデータへのパラダイムシフトが必要かどうかという問題を提起する。
論文 参考訳(メタデータ) (2023-10-25T10:18:44Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Learning to Increase the Power of Conditional Randomization Tests [8.883733362171032]
モデル-X条件ランダム化テストは、条件独立性テストのための一般的なフレームワークである。
本稿では,モデルXテストのパワー向上を目的とした新しいモデル適合方式を提案する。
論文 参考訳(メタデータ) (2022-07-03T12:29:25Z) - Learning continuous models for continuous physics [94.42705784823997]
本研究では,科学技術応用のための機械学習モデルを検証する数値解析理論に基づくテストを開発する。
本研究は,従来のMLトレーニング/テスト手法と一体化して,科学・工学分野におけるモデルの検証を行う方法である。
論文 参考訳(メタデータ) (2022-02-17T07:56:46Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Testing Framework for Black-box AI Models [1.916485402892365]
本稿では,AIモデルをテストするためのエンドツーエンドの汎用フレームワークを提案する。
我々のツールは産業用AIモデルのテストに使われており、問題を明らかにするのに非常に効果的でした。
論文 参考訳(メタデータ) (2021-02-11T18:15:23Z) - Fairness in the Eyes of the Data: Certifying Machine-Learning Models [38.09830406613629]
本稿では,対話型およびプライバシ保護テストに基づいて,モデルの公正度を認定するフレームワークを提案する。
テストデータはテスタにのみプライベートに提供されるか、あるいはモデル作成者にも事前に公開されている2つのシナリオに対処します。
我々は、参加者の機密データを隠蔽しながら、モデルへのブラックボックスアクセスのみを使用して、公正性テストと認定推論を自動化する暗号技術を提供する。
論文 参考訳(メタデータ) (2020-09-03T09:22:39Z) - Testing Monotonicity of Machine Learning Models [0.5330240017302619]
本稿では,モノトニック性の検証に基づく検証テスト,すなわち,検証技術を用いたホワイトボックスモデル上でのテスト入力の形式的計算を提案する。
ホワイトボックスモデルでは、テストケースの直接計算によって、テスト入力の空間を体系的に探索することができる。
90のブラックボックスモデルに対する実証的な評価は、検証ベースのテストは、適応的ランダムテストと、有効性と効率性に関してプロパティベースの技術より優れていることを示している。
論文 参考訳(メタデータ) (2020-02-27T17:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。