論文の概要: The Trust Calibration Maturity Model for Characterizing and Communicating Trustworthiness of AI Systems
- arxiv url: http://arxiv.org/abs/2503.15511v2
- Date: Mon, 14 Jul 2025 18:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 15:29:04.274185
- Title: The Trust Calibration Maturity Model for Characterizing and Communicating Trustworthiness of AI Systems
- Title(参考訳): AIシステムの信頼性を評価・伝達するための信頼校正成熟度モデル
- Authors: Scott T Steinmetz, Asmeret Naugle, Paul Schutte, Matt Sweitzer, Alex Washburne, Lisa Linville, Daniel Krofcheck, Michal Kucer, Samuel Myren,
- Abstract要約: 信頼成熟度モデル(TCMM)を提案する。
TCMMには、パフォーマンス評価、バイアス&ロバストネス定量化、透明性、安全性とセキュリティ、ユーザビリティの5つの側面がある。
本稿では,TMMについて論じ,高い結果の核科学決定にChatGPTを用い,地震発生源の分類にPhaseNet(地震モデルのアンサンブル)を用いるという2つの目標課題について論じる。
- 参考スコア(独自算出の注目度): 1.451121761055173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent proliferation of powerful AI systems has created a strong need for capabilities that help users to calibrate trust in those systems. As AI systems grow in scale, information required to evaluate their trustworthiness becomes less accessible, presenting a growing risk of using these systems inappropriately. We propose the Trust Calibration Maturity Model (TCMM) to characterize and communicate information about AI system trustworthiness. The TCMM incorporates five dimensions of analytic maturity: Performance Characterization, Bias & Robustness Quantification, Transparency, Safety & Security, and Usability. The TCMM can be presented along with system performance information to (1) help a user to appropriately calibrate trust, (2) establish requirements and track progress, and (3) identify research needs. Here, we discuss the TCMM and demonstrate it on two target tasks: using ChatGPT for high consequence nuclear science determinations, and using PhaseNet (an ensemble of seismic models) for categorizing sources of seismic events.
- Abstract(参考訳): 最近の強力なAIシステムの急増は、ユーザがこれらのシステムの信頼性を調整できる能力に対する強いニーズを生み出している。
AIシステムが大規模に成長するにつれて、信頼度を評価するために必要な情報がアクセスしにくくなり、これらのシステムが不適切に使用されるリスクが増大する。
本稿では,信頼度評価モデル(TCMM)を提案し,AIシステムの信頼性に関する情報の特徴付けと伝達を行う。
TCMMには、パフォーマンス評価、バイアスとロバストネスの定量化、透明性、安全性とセキュリティ、ユーザビリティの5つの側面がある。
TCMMは,(1)信頼度を適切に調整し,(2)要求の確立と進捗の追跡,(3)研究ニーズの特定を支援するシステム性能情報とともに提示することができる。
本稿では,TMMについて論じ,高い結果の核科学決定にChatGPTを用い,地震発生源の分類にPhaseNet(地震モデルのアンサンブル)を用いるという2つの目標課題について論じる。
関連論文リスト
- A Context-Aware Dual-Metric Framework for Confidence Estimation in Large Language Models [6.62851757612838]
大規模言語モデル(LLM)に対する現在の信頼度推定法は,応答と文脈情報の関連性を無視する。
本稿では,2つの新しい指標を用いた信頼度推定のためのコンテキスト忠実度と一貫性を統合したCRUXを提案する。
3つのベンチマークデータセットに対する実験は、CRUXの有効性を示し、既存のベースラインよりも高いAUROCを達成した。
論文 参考訳(メタデータ) (2025-08-01T12:58:34Z) - Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.120170062795566]
本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文 参考訳(メタデータ) (2025-05-27T08:21:21Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [334.48358909967845]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。
彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。
本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-20T06:20:36Z) - Uncertainty-Aware Online Extrinsic Calibration: A Conformal Prediction Approach [4.683612295430957]
我々はモンテカルロ・ドロップアウトとコンフォーマル予測を組み合わせた不確実性認識をオンラインキャリブレーションに統合する最初のアプローチを提案する。
本研究では,様々な視覚センサの種類にまたがって有効性を示し,測定値を用いて測定を行い,間隔の効率と信頼性を評価する。
動的環境におけるセンサ融合の堅牢性を大幅に向上させることができるキャリブレーション推定の信頼性に関する知見を提供する。
論文 参考訳(メタデータ) (2025-01-12T17:24:51Z) - VERA: Validation and Evaluation of Retrieval-Augmented Systems [5.709401805125129]
VERAは、大規模言語モデル(LLM)からの出力の透明性と信頼性を高めるために設計されたフレームワークである。
VERAが意思決定プロセスを強化し、AIアプリケーションへの信頼を高める方法を示す。
論文 参考訳(メタデータ) (2024-08-16T21:59:59Z) - A Holistic Assessment of the Reliability of Machine Learning Systems [30.638615396429536]
本稿では,機械学習(ML)システムの信頼性に関する総合評価手法を提案する。
本フレームワークは, 分散精度, 分散シフト堅牢性, 対向ロバスト性, キャリブレーション, 分布外検出の5つの重要な特性を評価する。
異なるアルゴリズムアプローチの性能に関する洞察を提供するため、我々は最先端技術を特定し分類する。
論文 参考訳(メタデータ) (2023-07-20T05:00:13Z) - Calibrating AI Models for Wireless Communications via Conformal
Prediction [55.47458839587949]
コンフォーマル予測は,通信システムにおけるAIの設計に初めて適用される。
本稿では,形式的校正保証付き決定を生成するAIモデルを得るための一般フレームワークとしての共形予測の適用について検討する。
論文 参考訳(メタデータ) (2022-12-15T12:52:23Z) - Statistical Perspectives on Reliability of Artificial Intelligence
Systems [6.284088451820049]
AIシステムの信頼性に関する統計的視点を提供する。
本稿では,AI信頼性研究のためのSMART統計フレームワークを提案する。
我々は、AI信頼性のモデリングと分析における最近の発展について論じる。
論文 参考訳(メタデータ) (2021-11-09T20:00:14Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z) - Providing reliability in Recommender Systems through Bernoulli Matrix
Factorization [63.732639864601914]
本稿では,予測値と信頼性値の両方を提供するためにBernoulli Matrix Factorization (BeMF)を提案する。
BeMFはメモリベースのフィルタリングではなく、モデルベースの協調フィルタリングに作用する。
予測の信頼性が高ければ高いほど、それが間違っているという責任は少なくなる。
論文 参考訳(メタデータ) (2020-06-05T14:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。