論文の概要: Toward Maturity-Based Certification of Embodied AI: Quantifying Trustworthiness Through Measurement Mechanisms
- arxiv url: http://arxiv.org/abs/2601.03470v1
- Date: Tue, 06 Jan 2026 23:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.093572
- Title: Toward Maturity-Based Certification of Embodied AI: Quantifying Trustworthiness Through Measurement Mechanisms
- Title(参考訳): 成熟度に基づく体操AIの認定に向けて:測定メカニズムによる信頼性の定量化
- Authors: Michael C. Darling, Alan H. Hesu, Michael A. Mardikes, Brian C. McGuigan, Reed M. Milewicz,
- Abstract要約: 我々は、信頼度評価に固有の多目的トレードオフをナビゲートするには、構造化された評価フレームワーク、定量的評価機構、および方法が必要であると論じる。
本研究では,不確実性を計測機構として用い,非クルード航空機システム(UAS)検出ケーススタディを通じて実現可能性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a maturity-based framework for certifying embodied AI systems through explicit measurement mechanisms. We argue that certifiable embodied AI requires structured assessment frameworks, quantitative scoring mechanisms, and methods for navigating multi-objective trade-offs inherent in trustworthiness evaluation. We demonstrate this approach using uncertainty quantification as an exemplar measurement mechanism and illustrate feasibility through an Uncrewed Aircraft System (UAS) detection case study.
- Abstract(参考訳): 本稿では,明示的な測定機構を通じて,エンボディドAIシステムの認証を行うための成熟度ベースのフレームワークを提案する。
我々は、信頼度評価に固有の多目的トレードオフをナビゲートするには、構造化された評価フレームワーク、定量的評価機構、および方法が必要であると論じる。
本研究では, 不確実性定量化を模範的な測定機構として用い, 無人航空機システム(UAS)検出ケーススタディを通じて実現可能性を示す。
関連論文リスト
- CCE: Confidence-Consistency Evaluation for Time Series Anomaly Detection [56.302586730134806]
本稿では,新しい評価指標である信頼性・一貫性評価(CCE)を紹介する。
CCEは同時に、予測の信頼性と不確実性を測定する。
RankEvalは、さまざまなメトリクスのランキング機能を比較するためのベンチマークです。
論文 参考訳(メタデータ) (2025-09-01T03:38:38Z) - A Conceptual Framework for AI Capability Evaluations [0.0]
本稿では,AI能力評価を解析するための概念的枠組みを提案する。
広く使われている手法や用語の分析を体系化する構造化された記述的アプローチを提供する。
また、研究者は方法論的な弱点を特定し、評価を設計する実践者を支援し、政策立案者に複雑な評価の風景を精査し、比較し、ナビゲートするツールを提供する。
論文 参考訳(メタデータ) (2025-06-23T00:19:27Z) - Towards Reliable Forgetting: A Survey on Machine Unlearning Verification [26.88376128769619]
本稿では,機械学習の検証手法に関する最初の構造化された調査について述べる。
本稿では,現在の手法を行動検証とパラメトリック検証の2つの主要なカテゴリに分類する分類法を提案する。
基礎となる仮定、強度、限界を調べ、実践的なデプロイメントにおける潜在的な脆弱性を特定します。
論文 参考訳(メタデータ) (2025-06-18T03:33:59Z) - Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Towards a Framework for Deep Learning Certification in Safety-Critical Applications Using Inherently Safe Design and Run-Time Error Detection [0.0]
航空や他の安全上重要な分野における現実世界の問題について検討し,認定モデルの要件について検討する。
我々は、(i)本質的に安全な設計と(ii)実行時のエラー検出に基づいて、ディープラーニング認定に向けた新しいフレームワークを構築した。
論文 参考訳(メタデータ) (2024-03-12T11:38:45Z) - Uncertainty-Driven Action Quality Assessment [11.958132175629368]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。