Fugu-MT 論文翻訳(概要): A Holistic Assessment of the Reliability of Machine Learning Systems

論文の概要: A Holistic Assessment of the Reliability of Machine Learning Systems

arxiv url: http://arxiv.org/abs/2307.10586v1
Date: Thu, 20 Jul 2023 05:00:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-21 14:38:52.301681
Title: A Holistic Assessment of the Reliability of Machine Learning Systems
Title（参考訳）: 機械学習システムの信頼性に関する全体論的評価
Authors: Anthony Corso, David Karamadian, Romeo Valentin, Mary Cooper, Mykel J. Kochenderfer
Abstract要約: 本稿では,機械学習(ML)システムの信頼性に関する総合評価手法を提案する。本フレームワークは, 分散精度, 分散シフト堅牢性, 対向ロバスト性, キャリブレーション, 分布外検出の5つの重要な特性を評価する。異なるアルゴリズムアプローチの性能に関する洞察を提供するため、我々は最先端技術を特定し分類する。
参考スコア（独自算出の注目度）: 30.638615396429536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As machine learning (ML) systems increasingly permeate high-stakes settings such as healthcare, transportation, military, and national security, concerns regarding their reliability have emerged. Despite notable progress, the performance of these systems can significantly diminish due to adversarial attacks or environmental changes, leading to overconfident predictions, failures to detect input faults, and an inability to generalize in unexpected scenarios. This paper proposes a holistic assessment methodology for the reliability of ML systems. Our framework evaluates five key properties: in-distribution accuracy, distribution-shift robustness, adversarial robustness, calibration, and out-of-distribution detection. A reliability score is also introduced and used to assess the overall system reliability. To provide insights into the performance of different algorithmic approaches, we identify and categorize state-of-the-art techniques, then evaluate a selection on real-world tasks using our proposed reliability metrics and reliability score. Our analysis of over 500 models reveals that designing for one metric does not necessarily constrain others but certain algorithmic techniques can improve reliability across multiple metrics simultaneously. This study contributes to a more comprehensive understanding of ML reliability and provides a roadmap for future research and development.
Abstract（参考訳）: 機械学習(ml)システムは、医療、輸送、軍、国家安全保障などの高リスク設定に浸透するにつれて、信頼性に関する懸念が高まっている。顕著な進歩にもかかわらず、これらのシステムの性能は敵の攻撃や環境の変化によって著しく低下し、過度な予測、入力障害の検出の失敗、予期せぬシナリオで一般化できないことにつながる。本稿では,MLシステムの信頼性に関する総合評価手法を提案する。分散精度,分散シフトロバスト性,逆ロバスト性,キャリブレーション,分散検出の5つの特性を評価した。信頼性スコアも導入され、システム全体の信頼性を評価するために使用される。異なるアルゴリズムアプローチのパフォーマンスに関する洞察を提供するため,最先端技術を特定し,分類し,提案する信頼性指標と信頼性スコアを用いて実世界のタスクの選択を評価する。 500モデル以上のモデルを分析すると、あるメトリックに対する設計は必ずしも他のメトリックを制約するわけではないが、特定のアルゴリズム技術は複数のメトリクスの信頼性を同時に向上させることができることが分かる。この研究は、MLの信頼性をより包括的に理解し、将来の研究開発のロードマップを提供する。

関連論文リスト

MCQA-Eval: Efficient Confidence Evaluation in NLG with Gold-Standard Correctness Labels [16.300463494913593]
大規模言語モデル (LLM) には堅牢な信頼度推定が必要である。 McQCA-Evalは、自然言語生成における信頼度を評価するための評価フレームワークである。
論文参考訳（メタデータ） (2025-02-20T05:09:29Z)
Probabilistic Modeling of Disparity Uncertainty for Robust and Efficient Stereo Matching [61.73532883992135]
本稿では,新しい不確実性を考慮したステレオマッチングフレームワークを提案する。我々はベイズリスクを不確実性の測定として採用し、データを別々に見積もり、不確実性をモデル化する。
論文参考訳（メタデータ） (2024-12-24T23:28:20Z)
Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文参考訳（メタデータ） (2024-11-03T17:32:00Z)
VERA: Validation and Evaluation of Retrieval-Augmented Systems [5.709401805125129]
VERAは、大規模言語モデル(LLM)からの出力の透明性と信頼性を高めるために設計されたフレームワークである。 VERAが意思決定プロセスを強化し、AIアプリケーションへの信頼を高める方法を示す。
論文参考訳（メタデータ） (2024-08-16T21:59:59Z)
Semi-Supervised Multi-Task Learning Based Framework for Power System Security Assessment [0.0]
本稿では,Semi-Supervised Multi-Task Learning (SS-MTL) を用いた,電力系統の動的セキュリティ評価のための新しい機械学習フレームワークを開発する。提案フレームワークの基盤となる学習アルゴリズムは条件付きマスク付きエンコーダを統合し,マルチタスク学習を用いて特徴表現を分類する。 IEEE 68-busシステムに関する様々な実験を行い,提案手法の有効性を検証した。
論文参考訳（メタデータ） (2024-07-11T22:42:53Z)
A Domain-Agnostic Approach for Characterization of Lifelong Learning Systems [128.63953314853327]
「生涯学習」システムには,1)継続的学習,2)伝達と適応,3)拡張性があります。この一連のメトリクスは、様々な複雑な生涯学習システムの開発に役立てることができることを示す。
論文参考訳（メタデータ） (2023-01-18T21:58:54Z)
Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。 TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文参考訳（メタデータ） (2022-04-25T03:48:49Z)
Statistical Perspectives on Reliability of Artificial Intelligence Systems [6.284088451820049]
AIシステムの信頼性に関する統計的視点を提供する。本稿では,AI信頼性研究のためのSMART統計フレームワークを提案する。我々は、AI信頼性のモデリングと分析における最近の発展について論じる。
論文参考訳（メタデータ） (2021-11-09T20:00:14Z)
Physics-Informed Deep Learning: A Promising Technique for System Reliability Assessment [1.847740135967371]
システム信頼性評価におけるディープラーニングの利用に関する限定的な研究がある。本稿では,物理情報を用いた深層学習におけるフレームシステムの信頼性評価手法を提案する。提案手法は、デュアルプロセッサ・コンピューティング・システムを含む3つの数値例によって実証される。
論文参考訳（メタデータ） (2021-08-24T16:24:46Z)
Multi Agent System for Machine Learning Under Uncertainty in Cyber Physical Manufacturing System [78.60415450507706]
近年の予測機械学習の進歩は、製造における様々なユースケースに応用されている。ほとんどの研究は、それに関連する不確実性に対処することなく予測精度を最大化することに焦点を当てた。本稿では,機械学習における不確実性の原因を特定し,不確実性下での機械学習システムの成功基準を確立する。
論文参考訳（メタデータ） (2021-07-28T10:28:05Z)
Uncertainty-Aware Boosted Ensembling in Multi-Modal Settings [33.25969141014772]
不確実性推定は、デプロイにおける機械学習システムの信頼性を強調する、広く研究されている方法である。逐次および並列アンサンブル手法により,マルチモーダル設定におけるMLシステムの性能が向上した。本研究では,不確かさを高く見積もるデータポイントに着目し,マルチモーダルセンシングのための不確実性認識促進手法を提案する。
論文参考訳（メタデータ） (2021-04-21T18:28:13Z)
Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文参考訳（メタデータ） (2021-02-03T13:30:26Z)
Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文参考訳（メタデータ） (2020-11-02T20:04:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。