論文の概要: AI-Compass: A Comprehensive and Effective Multi-module Testing Tool for AI Systems
- arxiv url: http://arxiv.org/abs/2411.06146v1
- Date: Sat, 09 Nov 2024 11:15:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:57.671753
- Title: AI-Compass: A Comprehensive and Effective Multi-module Testing Tool for AI Systems
- Title(参考訳): AI-Compass:AIシステムのための総合的で効果的な多モジュールテストツール
- Authors: Zhiyu Zhu, Zhibo Jin, Hongsheng Hu, Minhui Xue, Ruoxi Sun, Seyit Camtepe, Praveen Gauravaram, Huaming Chen,
- Abstract要約: 本研究では,AIシステムを包括的かつ効果的に評価するテストツール,ツールを設計,実装する。
このツールは、敵の堅牢性、モデル解釈可能性、およびニューロン分析を広範囲に評価する。
私たちの研究は、ランドスケープをテストするAIシステムの一般的なソリューションに光を当てています。
- 参考スコア(独自算出の注目度): 26.605694684145313
- License:
- Abstract: AI systems, in particular with deep learning techniques, have demonstrated superior performance for various real-world applications. Given the need for tailored optimization in specific scenarios, as well as the concerns related to the exploits of subsurface vulnerabilities, a more comprehensive and in-depth testing AI system becomes a pivotal topic. We have seen the emergence of testing tools in real-world applications that aim to expand testing capabilities. However, they often concentrate on ad-hoc tasks, rendering them unsuitable for simultaneously testing multiple aspects or components. Furthermore, trustworthiness issues arising from adversarial attacks and the challenge of interpreting deep learning models pose new challenges for developing more comprehensive and in-depth AI system testing tools. In this study, we design and implement a testing tool, \tool, to comprehensively and effectively evaluate AI systems. The tool extensively assesses multiple measurements towards adversarial robustness, model interpretability, and performs neuron analysis. The feasibility of the proposed testing tool is thoroughly validated across various modalities, including image classification, object detection, and text classification. Extensive experiments demonstrate that \tool is the state-of-the-art tool for a comprehensive assessment of the robustness and trustworthiness of AI systems. Our research sheds light on a general solution for AI systems testing landscape.
- Abstract(参考訳): AIシステムは、特にディープラーニング技術を用いて、様々な現実世界のアプリケーションにおいて優れたパフォーマンスを示してきた。
特定のシナリオで調整された最適化の必要性、および地下の脆弱性の悪用に関連する懸念を踏まえると、より包括的で詳細なテストAIシステムは重要なトピックとなる。
テスト機能の拡張を目的とした、現実世界のアプリケーションにおけるテストツールの出現を目の当たりにしています。
しかし、彼らはしばしばアドホックなタスクに集中し、複数の側面やコンポーネントを同時にテストするのに適さない。
さらに、敵対的な攻撃から生じる信頼性の問題や、ディープラーニングモデルを解釈するという課題は、より包括的で詳細なAIシステムテストツールを開発する上で、新たな課題をもたらす。
本研究では,AIシステムを包括的かつ効果的に評価するためのテストツールである \tool の設計と実装を行う。
このツールは、敵の堅牢性、モデルの解釈可能性に対する複数の測定を広範囲に評価し、ニューロン分析を行う。
提案するテストツールの有効性は,画像分類,オブジェクト検出,テキスト分類など多岐にわたる。
大規模な実験では、AIシステムの堅牢性と信頼性を総合的に評価するための最先端ツールとして、‘tool’が実証されている。
私たちの研究は、ランドスケープをテストするAIシステムの一般的なソリューションに光を当てています。
関連論文リスト
- Underwater Object Detection in the Era of Artificial Intelligence: Current, Challenge, and Future [119.88454942558485]
水中物体検出(UOD)は、水中の画像やビデオ中の物体を識別し、ローカライズすることを目的としている。
近年、人工知能(AI)に基づく手法、特に深層学習法は、UODにおいて有望な性能を示している。
論文 参考訳(メタデータ) (2024-10-08T00:25:33Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - The Role of Artificial Intelligence and Machine Learning in Software Testing [0.14896196009851972]
人工知能(AI)と機械学習(ML)は様々な産業に大きな影響を与えている。
ソフトウェア開発ライフサイクル(SDLC)の重要な部分であるソフトウェアテストは、ソフトウェア製品の品質と信頼性を保証する。
本稿では、既存の文献をレビューし、現在のツールや技術を分析し、ケーススタディを提示することで、ソフトウェアテストにおけるAIとMLの役割について考察する。
論文 参考訳(メタデータ) (2024-09-04T13:25:13Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - Testing autonomous vehicles and AI: perspectives and challenges from cybersecurity, transparency, robustness and fairness [53.91018508439669]
この研究は、人工知能を自律走行車(AV)に統合する複雑さを探求する
AIコンポーネントがもたらした課題と、テスト手順への影響を調べます。
本稿は、重要な課題を特定し、AV技術におけるAIの研究・開発に向けた今後の方向性を提案する。
論文 参考訳(メタデータ) (2024-02-21T08:29:42Z) - Integration of cognitive tasks into artificial general intelligence test
for large models [54.72053150920186]
我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。
認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
論文 参考訳(メタデータ) (2024-02-04T15:50:42Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Constrained Adversarial Learning and its applicability to Automated
Software Testing: a systematic review [0.0]
この体系的なレビューは、敵の学習やソフトウェアテストに適用される制約付きデータ生成手法の現状に焦点を当てている。
研究者や開発者に対して、敵対的な学習方法によるテストツールの強化と、ディジタルシステムのレジリエンスと堅牢性の向上を指導することを目的としている。
論文 参考訳(メタデータ) (2023-03-14T00:27:33Z) - Tools and Practices for Responsible AI Engineering [0.5249805590164901]
我々は、責任あるAIエンジニアリングに対する重要なニーズに対処する2つの新しいソフトウェアライブラリを提示する。
hydra-zenは、複雑なAIアプリケーションとその振る舞いを再現するプロセスを劇的に単純化する。
rAI-toolboxは、AIモデルの堅牢性を評価し、拡張する方法を可能にするように設計されている。
論文 参考訳(メタデータ) (2022-01-14T19:47:46Z) - Test and Evaluation Framework for Multi-Agent Systems of Autonomous
Intelligent Agents [0.0]
人工知能を組み込んだサイバー物理システムの複雑なアンサンブルのための統一的なテストと評価フレームワークを開発することの課題について考察する。
本稿では,開発ライフサイクルだけでなく,システムが学習し,適応するにつれて,テストと評価を実施できるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-25T21:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。