論文の概要: Testing Framework for Black-box AI Models
- arxiv url: http://arxiv.org/abs/2102.06166v1
- Date: Thu, 11 Feb 2021 18:15:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:23:02.910208
- Title: Testing Framework for Black-box AI Models
- Title(参考訳): ブラックボックスAIモデルのテストフレームワーク
- Authors: Aniya Aggarwal, Samiulla Shaikh, Sandeep Hans, Swastik Haldar, Rema
Ananthanarayanan, Diptikalyan Saha
- Abstract要約: 本稿では,AIモデルをテストするためのエンドツーエンドの汎用フレームワークを提案する。
我々のツールは産業用AIモデルのテストに使われており、問題を明らかにするのに非常に効果的でした。
- 参考スコア(独自算出の注目度): 1.916485402892365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With widespread adoption of AI models for important decision making, ensuring
reliability of such models remains an important challenge. In this paper, we
present an end-to-end generic framework for testing AI Models which performs
automated test generation for different modalities such as text, tabular, and
time-series data and across various properties such as accuracy, fairness, and
robustness. Our tool has been used for testing industrial AI models and was
very effective to uncover issues present in those models. Demo video link:
https://youtu.be/984UCU17YZI
- Abstract(参考訳): 重要な意思決定のためのAIモデルの普及に伴い、そのようなモデルの信頼性の確保は依然として重要な課題です。
本稿では,テキスト,表,時系列データなどのさまざまなモーダルデータに対して,精度,公正性,堅牢性など,さまざまな特性に対して自動テスト生成を実行するAIモデルをテストするためのエンドツーエンド汎用フレームワークを提案する。
我々のツールは産業用AIモデルのテストに使われており、これらのモデルに存在する問題を明らかにするのに非常に効果的でした。
デモビデオリンク: https://youtu.be/984ucu17yzi
関連論文リスト
- ModelGPT: Unleashing LLM's Capabilities for Tailored Model Generation [35.160964210941955]
本稿では,ユーザが提供するデータやタスク記述に適したAIモデルを決定・生成するフレームワークであるModelGPTを提案する。
ユーザの要求に応じて、ModelGPTは、以前のパラダイムよりも少なくとも270倍高速に、調整済みのモデルを提供することができる。
論文 参考訳(メタデータ) (2024-02-18T11:24:34Z) - Enhancing the Fairness and Performance of Edge Cameras with Explainable
AI [3.4719449211802456]
本研究では,モデルデバッグに Explainable AI (XAI) を用いた診断手法を提案する。
トレーニングデータセットが主なバイアス源であることに気付き、ソリューションとしてモデル拡張を提案しました。
論文 参考訳(メタデータ) (2024-01-18T10:08:24Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Data Synthesis for Testing Black-Box Machine Learning Models [2.3800397174740984]
機械学習モデルの利用の増加は、これらのモデルの信頼性に関する疑問を提起する。
本稿では、ブラックボックスML/DLモデルをテストするための自動テストデータ合成のためのフレームワークを提供する。
論文 参考訳(メタデータ) (2021-11-03T12:00:30Z) - Automated Testing of AI Models [3.0616624345970975]
我々は、AITESTツールの機能を拡張し、画像および音声テキストモデルのテスト技術を含める。
これらの新たな拡張により、AIモデルをテストするための包括的なフレームワークがAIESTになる。
論文 参考訳(メタデータ) (2021-10-07T10:30:18Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - DirectDebug: Automated Testing and Debugging of Feature Models [55.41644538483948]
変数モデル(例えば、特徴モデル)は、ソフトウェアアーティファクトの変数と共通性を表現する一般的な方法である。
複雑でしばしば大規模な機能モデルは欠陥になりうる、すなわち、ソフトウェアアーチファクトの期待される変動特性を表現しない。
論文 参考訳(メタデータ) (2021-02-11T11:22:20Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。