論文の概要: Test and Evaluation Framework for Multi-Agent Systems of Autonomous
Intelligent Agents
- arxiv url: http://arxiv.org/abs/2101.10430v1
- Date: Mon, 25 Jan 2021 21:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 21:14:04.262642
- Title: Test and Evaluation Framework for Multi-Agent Systems of Autonomous
Intelligent Agents
- Title(参考訳): 自律型インテリジェントエージェントのマルチエージェントシステムのテストと評価フレームワーク
- Authors: Erin Lanus, Ivan Hernandez, Adam Dachowicz, Laura Freeman, Melanie
Grande, Andrew Lang, Jitesh H. Panchal, Anthony Patrick, Scott Welch
- Abstract要約: 人工知能を組み込んだサイバー物理システムの複雑なアンサンブルのための統一的なテストと評価フレームワークを開発することの課題について考察する。
本稿では,開発ライフサイクルだけでなく,システムが学習し,適応するにつれて,テストと評価を実施できるフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test and evaluation is a necessary process for ensuring that engineered
systems perform as intended under a variety of conditions, both expected and
unexpected. In this work, we consider the unique challenges of developing a
unifying test and evaluation framework for complex ensembles of cyber-physical
systems with embedded artificial intelligence. We propose a framework that
incorporates test and evaluation throughout not only the development life
cycle, but continues into operation as the system learns and adapts in a noisy,
changing, and contended environment. The framework accounts for the challenges
of testing the integration of diverse systems at various hierarchical scales of
composition while respecting that testing time and resources are limited. A
generic use case is provided for illustrative purposes and research directions
emerging as a result of exploring the use case via the framework are suggested.
- Abstract(参考訳): テストと評価は、予期せぬ様々な条件下で、設計されたシステムが意図通りに機能することを保証するために必要なプロセスです。
本研究では,人工知能を組み込んだサイバーフィジカルシステムの複雑なアンサンブルのためのテストと評価の統一フレームワークを開発するという,ユニークな課題について考察する。
本稿では, 開発ライフサイクルだけでなく, 騒音, 変化, 競合する環境下での学習, 適応などを通じて, 開発ライフサイクル全体を通してテストと評価を取り入れたフレームワークを提案する。
このフレームワークは、テスト時間とリソースが制限されていることを尊重しながら、さまざまな階層的な構成スケールで多様なシステムの統合をテストするという課題を負っている。
汎用的なユースケースが提供され、フレームワークを介してユースケースを探索した結果、説明的な目的と研究の方向性が提案される。
関連論文リスト
- AI-Compass: A Comprehensive and Effective Multi-module Testing Tool for AI Systems [26.605694684145313]
本研究では,AIシステムを包括的かつ効果的に評価するテストツール,ツールを設計,実装する。
このツールは、敵の堅牢性、モデル解釈可能性、およびニューロン分析を広範囲に評価する。
私たちの研究は、ランドスケープをテストするAIシステムの一般的なソリューションに光を当てています。
論文 参考訳(メタデータ) (2024-11-09T11:15:17Z) - Algorithmic Scenario Generation as Quality Diversity Optimization [8.010900084313414]
人と対話するロボットや自律エージェントの複雑さの増大は、デプロイ前にそれらを体系的にテストするアプローチに対する重要なニーズを強調している。
本稿では,フレームワークの各コンポーネントの開発から得られた知見について述べるとともに,これらのコンポーネントの統合が,さまざまな現実的かつ困難なシナリオの発見につながっていることを示す。
論文 参考訳(メタデータ) (2024-09-07T05:20:41Z) - Coupled Requirements-driven Testing of CPS: From Simulation To Reality [5.7736484832934325]
CPS(Cyber-Physical Systems)の障害は、物理的なインフラや人間を傷つける深刻な事故を引き起こす可能性がある。
現在のシミュレーションとフィールドテストの実践、特に小型無人航空システム(sUAS)の領域では、アドホックであり、完全に構造化されたテストプロセスが欠如している。
我々はCPSを検証するための初期フレームワークを開発し、特にsUASとロボットアプリケーションに焦点を当てた。
論文 参考訳(メタデータ) (2024-03-24T20:32:12Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Testing System Intelligence [0.902877390685954]
私たちは、置換テストに合格するインテリジェントシステムの構築には、現在のAIの範囲外にある一連の技術的な問題が含まれる、と論じています。
我々は,人間と機械のスキルの相補性に基づく代替テストが,多種多様な知能概念につながることを示唆する。
論文 参考訳(メタデータ) (2023-05-19T06:46:32Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - A Domain-Agnostic Approach for Characterization of Lifelong Learning
Systems [128.63953314853327]
「生涯学習」システムには,1)継続的学習,2)伝達と適応,3)拡張性があります。
この一連のメトリクスは、様々な複雑な生涯学習システムの開発に役立てることができることを示す。
論文 参考訳(メタデータ) (2023-01-18T21:58:54Z) - Multi Agent System for Machine Learning Under Uncertainty in Cyber
Physical Manufacturing System [78.60415450507706]
近年の予測機械学習の進歩は、製造における様々なユースケースに応用されている。
ほとんどの研究は、それに関連する不確実性に対処することなく予測精度を最大化することに焦点を当てた。
本稿では,機械学習における不確実性の原因を特定し,不確実性下での機械学習システムの成功基準を確立する。
論文 参考訳(メタデータ) (2021-07-28T10:28:05Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。