Fugu-MT 論文翻訳(概要): Principles for Evaluation of AI/ML Model Performance and Robustness

論文の概要: Principles for Evaluation of AI/ML Model Performance and Robustness

arxiv url: http://arxiv.org/abs/2107.02868v1
Date: Tue, 6 Jul 2021 19:59:14 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-08 14:14:03.610222
Title: Principles for Evaluation of AI/ML Model Performance and Robustness
Title（参考訳）: AI/MLモデルの性能とロバスト性評価の原則
Authors: Olivia Brown, Andrew Curtis, Justin Goodwin
Abstract要約: 国防総省(DoD)は、AI/ML機能の設計、評価、展開に対する投資を著しく増やしている。本稿では、AI/ML開発プロセスをレビューし、AI/MLモデル評価の一般的なベストプラクティスを強調し、DoD評価者に推奨する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Department of Defense (DoD) has significantly increased its investment in the design, evaluation, and deployment of Artificial Intelligence and Machine Learning (AI/ML) capabilities to address national security needs. While there are numerous AI/ML successes in the academic and commercial sectors, many of these systems have also been shown to be brittle and nonrobust. In a complex and ever-changing national security environment, it is vital that the DoD establish a sound and methodical process to evaluate the performance and robustness of AI/ML models before these new capabilities are deployed to the field. This paper reviews the AI/ML development process, highlights common best practices for AI/ML model evaluation, and makes recommendations to DoD evaluators to ensure the deployment of robust AI/ML capabilities for national security needs.
Abstract（参考訳）: 国防総省(DoD)は、国家安全保障のニーズに対処する人工知能と機械学習(AI/ML)の能力の設計、評価、展開への投資を大幅に増やした。学術分野や商業分野ではAI/MLの成功は多いが、これらのシステムの多くは脆く非破壊的であることも示されている。複雑で絶え間なく変化する国家安全保障環境では、これらの新しい機能がフィールドにデプロイされる前に、ai/mlモデルのパフォーマンスと堅牢性を評価するための健全で方法論的なプロセスを確立することが不可欠である。本稿では、AI/ML開発プロセスをレビューし、AI/MLモデル評価の一般的なベストプラクティスを強調し、国家のセキュリティニーズに対する堅牢なAI/ML機能のデプロイを保証するため、DoD評価者に推奨する。

関連論文リスト

A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文参考訳（メタデータ） (2025-08-25T15:11:11Z)
Rethinking Technological Readiness in the Era of AI Uncertainty [0.0]
私たちは、現在の技術準備性評価は、重要なAI固有の要因を捉えることができないと論じています。軍事システムにおけるAIコンポーネントの成熟度と信頼性を評価するための新しいAI Readiness Frameworkを提案する。
論文参考訳（メタデータ） (2025-04-15T14:09:50Z)
Towards practicable Machine Learning development using AI Engineering Blueprints [0.8654896256058138]
中小規模企業(中小企業)は、製品やプロセスにAIを実装する際に課題に直面します。本稿では,プロプライエタリ機械学習(ML)モデル作成のための青写真の開発を目的とした研究計画を提案する。
論文参考訳（メタデータ） (2025-04-08T19:28:05Z)
A Framework for the Assurance of AI-Enabled Systems [0.0]
本稿では,AIシステムのリスク管理と保証のためのクレームベースのフレームワークを提案する。論文のコントリビューションは、AI保証のためのフレームワークプロセス、関連する定義のセット、AI保証における重要な考慮事項に関する議論である。
論文参考訳（メタデータ） (2025-04-03T13:44:01Z)
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement [73.0700818105842]
我々は、AI安全のための代表的攻撃、防衛、評価方法論を統合する統合されたフレームワークとツールキットであるAISafetyLabを紹介する。 AISafetyLabには直感的なインターフェースがあり、開発者はシームレスにさまざまなテクニックを適用できる。我々はヴィクナに関する実証的研究を行い、異なる攻撃戦略と防衛戦略を分析し、それらの比較効果に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2025-02-24T02:11:52Z)
Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文参考訳（メタデータ） (2024-10-25T07:53:32Z)
Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文参考訳（メタデータ） (2024-09-03T10:14:51Z)
EAIRiskBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [47.69642609574771]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。 EAIRiskBenchは、EAIシナリオにおける自動物理的リスクアセスメントのための新しいフレームワークである。
論文参考訳（メタデータ） (2024-08-08T13:19:37Z)
Testing autonomous vehicles and AI: perspectives and challenges from cybersecurity, transparency, robustness and fairness [53.91018508439669]
この研究は、人工知能を自律走行車(AV)に統合する複雑さを探求する AIコンポーネントがもたらした課題と、テスト手順への影響を調べます。本稿は、重要な課題を特定し、AV技術におけるAIの研究・開発に向けた今後の方向性を提案する。
論文参考訳（メタデータ） (2024-02-21T08:29:42Z)
Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review [1.6006550105523192]
大規模言語モデル(LLM)の能力を解き放つ上で,迅速なエンジニアリングが果たす重要な役割を概観する自己整合性、思考の連鎖、そして生成された知識などの技術を含む、素早い工学の基礎的方法論と先進的な方法論の両方を検査する。レビューはまた、AI能力の進歩におけるエンジニアリングの急進的な役割を反映し、将来の研究と応用のための構造化されたフレームワークを提供する。
論文参考訳（メタデータ） (2023-10-23T09:15:18Z)
No Trust without regulation! [0.0]
機械学習(ML)の性能の爆発と、その応用の可能性は、産業システムにおけるその利用を考慮し続けています。安全と、その基準、規制、標準の問題については、いまだに片側に過度に残っています。欧州委員会は、安全で信頼性があり、ヨーロッパの倫理的価値を尊重するAIベースのアプリケーションを統合するための、前進と強固なアプローチを構築するための基盤を築き上げた。
論文参考訳（メタデータ） (2023-09-27T09:08:41Z)
Guideline for Trustworthy Artificial Intelligence -- AI Assessment Catalog [0.0]
AIアプリケーションとそれに基づくビジネスモデルが、高品質な標準に従って開発されている場合にのみ、その潜在能力を最大限に発揮できることは明らかです。 AIアプリケーションの信頼性の問題は非常に重要であり、多くの主要な出版物の主題となっている。このAIアセスメントカタログは、まさにこの点に対応しており、2つのターゲットグループを対象としている。
論文参考訳（メタデータ） (2023-06-20T08:07:18Z)
Proceedings of the Robust Artificial Intelligence System Assurance (RAISA) Workshop 2022 [0.0]
RAISAワークショップは、堅牢な人工知能(AI)と機械学習(ML)システムの研究、開発、応用に焦点を当てる。特定のMLアルゴリズムに関してロバストネスを研究するのではなく、システムアーキテクチャのレベルでロバストネスの保証を検討することを目的としています。
論文参考訳（メタデータ） (2022-02-10T01:15:50Z)
Practical Machine Learning Safety: A Survey and Primer [81.73857913779534]
自動運転車のような安全クリティカルなアプリケーションにおける機械学習アルゴリズムのオープンワールド展開は、さまざまなML脆弱性に対処する必要がある。一般化エラーを低減し、ドメイン適応を実現し、外乱例や敵攻撃を検出するための新しいモデルと訓練技術。我々の組織は、MLアルゴリズムの信頼性を異なる側面から向上するために、最先端のML技術を安全戦略にマッピングする。
論文参考訳（メタデータ） (2021-06-09T05:56:42Z)
An interdisciplinary conceptual study of Artificial Intelligence (AI) for helping benefit-risk assessment practices: Towards a comprehensive qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文参考訳（メタデータ） (2021-05-07T12:01:31Z)
Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文参考訳（メタデータ） (2020-06-21T17:14:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。