論文の概要: Human-centred test and evaluation of military AI
- arxiv url: http://arxiv.org/abs/2412.01978v1
- Date: Mon, 02 Dec 2024 21:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:43:05.689373
- Title: Human-centred test and evaluation of military AI
- Title(参考訳): 軍用AIの人間中心試験と評価
- Authors: David Helmer, Michael Boardman, S. Kate Conroy, Adam J. Hepworth, Manoj Harjani,
- Abstract要約: REAIM 2024 Blueprint for Actionは、軍事領域におけるAIアプリケーションは倫理的かつ人間中心であるべきだと述べている。
AIシステムの開発と展開におけるTEVVは、ライフサイクルを通して人間のユーザを巻き込む必要がある。
従来の人間中心のテストと評価方法は、デプロイされたAIシステムに適応する必要がある。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The REAIM 2024 Blueprint for Action states that AI applications in the military domain should be ethical and human-centric and that humans must remain responsible and accountable for their use and effects. Developing rigorous test and evaluation, verification and validation (TEVV) frameworks will contribute to robust oversight mechanisms. TEVV in the development and deployment of AI systems needs to involve human users throughout the lifecycle. Traditional human-centred test and evaluation methods from human factors need to be adapted for deployed AI systems that require ongoing monitoring and evaluation. The language around AI-enabled systems should be shifted to inclusion of the human(s) as a component of the system. Standards and requirements supporting this adjusted definition are needed, as are metrics and means to evaluate them. The need for dialogue between technologists and policymakers on human-centred TEVV will be evergreen, but dialogue needs to be initiated with an objective in mind for it to be productive. Development of TEVV throughout system lifecycle is critical to support this evolution including the issue of human scalability and impact on scale of achievable testing. Communication between technical and non technical communities must be improved to ensure operators and policy-makers understand risk assumed by system use and to better inform research and development. Test and evaluation in support of responsible AI deployment must include the effect of the human to reflect operationally realised system performance. Means of communicating the results of TEVV to those using and making decisions regarding the use of AI based systems will be key in informing risk based decisions regarding use.
- Abstract(参考訳): REAIM 2024 Blueprint for Actionは、軍事領域におけるAI応用は倫理的かつ人間中心であり、人間はその使用と効果に対して責任と責任を負わなければならないと述べている。
厳格なテストと評価、検証、検証(TEVV)フレームワークの開発は、堅牢な監視メカニズムに寄与する。
AIシステムの開発と展開におけるTEVVは、ライフサイクルを通して人間のユーザを巻き込む必要がある。
従来の人間中心のテストと評価方法は、継続的な監視と評価を必要とするデプロイされたAIシステムに適応する必要がある。
AI対応システムを取り巻く言語は、システムのコンポーネントとして人間を包含するようにシフトすべきである。
この調整された定義をサポートする基準と要求は、メトリクスとして、それらを評価するための手段として必要である。
人間中心のTEVVに関する技術者と政策立案者との対話の必要性は常緑だが、生産的であることを念頭において対話を開始する必要がある。
システムのライフサイクルを通してのTEVVの開発は、人間のスケーラビリティの問題や達成可能なテストの規模への影響など、この進化をサポートするために重要である。
技術コミュニティと非技術コミュニティ間のコミュニケーションは、オペレーターと政策立案者がシステム利用によって想定されるリスクを理解し、研究と開発をよりよく知らせるために改善されなければならない。
責任あるAIデプロイメントをサポートするためのテストと評価には、運用上実現されたシステムパフォーマンスを反映する人間の影響を含めなければならない。
TEVVの結果をAIベースのシステムの使用に関する意思決定に伝えることは、使用に関するリスクベースの決定を伝える上で重要である。
関連論文リスト
- To Err Is AI! Debugging as an Intervention to Facilitate Appropriate Reliance on AI Systems [11.690126756498223]
最適な人間とAIのコラボレーションのためのビジョンは、人間のAIシステムへの「適切な依存」を必要とする。
実際には、アウト・オブ・ディストリビューションデータにおける機械学習モデルの性能格差は、データセット固有のパフォーマンスフィードバックを信頼できないものにしている。
論文 参考訳(メタデータ) (2024-09-22T09:43:27Z) - Evaluating AI Evaluation: Perils and Prospects [8.086002368038658]
本稿では,これらのシステムに対する評価手法が根本的に不適切であることを主張する。
AIシステムを評価するためには改革が必要であり、インスピレーションを得るために認知科学に目を向けるべきである、と私は主張する。
論文 参考訳(メタデータ) (2024-07-12T12:37:13Z) - Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - An AI System Evaluation Framework for Advancing AI Safety: Terminology, Taxonomy, Lifecycle Mapping [23.92695048003188]
本稿では,3つのコンポーネントからなるAIシステム評価フレームワークを提案する。
このフレームワークは、モデル中心のアプローチを越えて、AIシステム評価に関するより深い議論を触媒する。
論文 参考訳(メタデータ) (2024-04-08T10:49:59Z) - Testing autonomous vehicles and AI: perspectives and challenges from cybersecurity, transparency, robustness and fairness [53.91018508439669]
この研究は、人工知能を自律走行車(AV)に統合する複雑さを探求する
AIコンポーネントがもたらした課題と、テスト手順への影響を調べます。
本稿は、重要な課題を特定し、AV技術におけるAIの研究・開発に向けた今後の方向性を提案する。
論文 参考訳(メタデータ) (2024-02-21T08:29:42Z) - Requirements for Explainability and Acceptance of Artificial
Intelligence in Collaborative Work [0.0]
本稿では,AIの説明可能性と受容の要件について考察する。
その結果,2つの主要なグループが,モデルの内部操作に関する情報を必要とする開発者であることが示唆された。
AIシステムの受容は、システムの機能や性能、プライバシ、倫理的考慮事項に関する情報に依存する。
論文 参考訳(メタデータ) (2023-06-27T11:36:07Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable
Claims [59.64274607533249]
AI開発者は、責任を負うことのできる検証可能な主張をする必要がある。
このレポートは、さまざまな利害関係者がAIシステムに関するクレームの妥当性を改善するための様々なステップを示唆している。
我々は、この目的のための10のメカニズム、すなわち、組織、ソフトウェア、ハードウェアを分析し、それらのメカニズムの実装、探索、改善を目的とした推奨を行う。
論文 参考訳(メタデータ) (2020-04-15T17:15:35Z) - AAAI FSS-19: Human-Centered AI: Trustworthiness of AI Models and Data
Proceedings [8.445274192818825]
予測モデルは不確実性を認識し、信頼できる予測をもたらすことが不可欠である。
このシンポジウムの焦点は、データ品質と技術的堅牢性と安全性を改善するAIシステムであった。
広く定義された領域からの提出はまた、説明可能なモデル、人間の信頼、AIの倫理的側面といった要求に対処するアプローチについても論じた。
論文 参考訳(メタデータ) (2020-01-15T15:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。