論文の概要: Testing Framework for Black-box AI Models
- arxiv url: http://arxiv.org/abs/2102.06166v1
- Date: Thu, 11 Feb 2021 18:15:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:23:02.910208
- Title: Testing Framework for Black-box AI Models
- Title(参考訳): ブラックボックスAIモデルのテストフレームワーク
- Authors: Aniya Aggarwal, Samiulla Shaikh, Sandeep Hans, Swastik Haldar, Rema
Ananthanarayanan, Diptikalyan Saha
- Abstract要約: 本稿では,AIモデルをテストするためのエンドツーエンドの汎用フレームワークを提案する。
我々のツールは産業用AIモデルのテストに使われており、問題を明らかにするのに非常に効果的でした。
- 参考スコア(独自算出の注目度): 1.916485402892365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With widespread adoption of AI models for important decision making, ensuring
reliability of such models remains an important challenge. In this paper, we
present an end-to-end generic framework for testing AI Models which performs
automated test generation for different modalities such as text, tabular, and
time-series data and across various properties such as accuracy, fairness, and
robustness. Our tool has been used for testing industrial AI models and was
very effective to uncover issues present in those models. Demo video link:
https://youtu.be/984UCU17YZI
- Abstract(参考訳): 重要な意思決定のためのAIモデルの普及に伴い、そのようなモデルの信頼性の確保は依然として重要な課題です。
本稿では,テキスト,表,時系列データなどのさまざまなモーダルデータに対して,精度,公正性,堅牢性など,さまざまな特性に対して自動テスト生成を実行するAIモデルをテストするためのエンドツーエンド汎用フレームワークを提案する。
我々のツールは産業用AIモデルのテストに使われており、これらのモデルに存在する問題を明らかにするのに非常に効果的でした。
デモビデオリンク: https://youtu.be/984ucu17yzi
関連論文リスト
- Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence [3.4049215220521933]
我々は、AIモデルをテストするための新しい方法論であるDynamic Intelligence Assessment (DIA)を紹介する。
このフレームワークは、複数の試みにわたるモデルの信頼性と信頼性を評価するために、4つの新しいメトリクスを導入している。
付随するデータセットであるDIA-Benchには、さまざまなフォーマットで表示される可変パラメータを備えたチャレンジテンプレートのコレクションが含まれている。
論文 参考訳(メタデータ) (2024-10-20T20:07:36Z) - XAI-based Feature Ensemble for Enhanced Anomaly Detection in Autonomous Driving Systems [1.3022753212679383]
本稿では,複数の Explainable AI (XAI) メソッドを統合する新しい機能アンサンブルフレームワークを提案する。
このフレームワークは、6つの多様なAIモデルにまたがって、これらのXAIメソッドによって識別されるトップ機能を融合することによって、異常の検出に不可欠な堅牢で包括的な機能のセットを生成する。
我々の技術は、AIモデルの精度、堅牢性、透明性の向上を示し、より安全で信頼性の高い自動運転システムに貢献します。
論文 参考訳(メタデータ) (2024-10-20T14:34:48Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Enhancing the Fairness and Performance of Edge Cameras with Explainable
AI [3.4719449211802456]
本研究では,モデルデバッグに Explainable AI (XAI) を用いた診断手法を提案する。
トレーニングデータセットが主なバイアス源であることに気付き、ソリューションとしてモデル拡張を提案しました。
論文 参考訳(メタデータ) (2024-01-18T10:08:24Z) - Data Synthesis for Testing Black-Box Machine Learning Models [2.3800397174740984]
機械学習モデルの利用の増加は、これらのモデルの信頼性に関する疑問を提起する。
本稿では、ブラックボックスML/DLモデルをテストするための自動テストデータ合成のためのフレームワークを提供する。
論文 参考訳(メタデータ) (2021-11-03T12:00:30Z) - Automated Testing of AI Models [3.0616624345970975]
我々は、AITESTツールの機能を拡張し、画像および音声テキストモデルのテスト技術を含める。
これらの新たな拡張により、AIモデルをテストするための包括的なフレームワークがAIESTになる。
論文 参考訳(メタデータ) (2021-10-07T10:30:18Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - DirectDebug: Automated Testing and Debugging of Feature Models [55.41644538483948]
変数モデル(例えば、特徴モデル)は、ソフトウェアアーティファクトの変数と共通性を表現する一般的な方法である。
複雑でしばしば大規模な機能モデルは欠陥になりうる、すなわち、ソフトウェアアーチファクトの期待される変動特性を表現しない。
論文 参考訳(メタデータ) (2021-02-11T11:22:20Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。