論文の概要: A Comprehensive Survey and Classification of Evaluation Criteria for Trustworthy Artificial Intelligence
- arxiv url: http://arxiv.org/abs/2410.17281v1
- Date: Thu, 10 Oct 2024 11:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-27 05:11:59.065667
- Title: A Comprehensive Survey and Classification of Evaluation Criteria for Trustworthy Artificial Intelligence
- Title(参考訳): 信頼できる人工知能の評価基準の総合的調査と分類
- Authors: Louise McCormack, Malika Bendechache,
- Abstract要約: この体系的な文献レビューは、現在の評価基準を特定し、分析し、それらをEU TAI原則にマッピングし、各原則の新しい分類システムを提案する。
この結果から,TAI評価基準の標準化に必要かつ重要な障壁があることが判明した。
提案した分類は, TAIガバナンスの評価基準の開発, 選定, 標準化に寄与する。
- 参考スコア(独自算出の注目度): 0.552480439325792
- License:
- Abstract: This paper presents a systematic review of the literature on evaluation criteria for Trustworthy Artificial Intelligence (TAI), with a focus on the seven EU principles of TAI. This systematic literature review identifies and analyses current evaluation criteria, maps them to the EU TAI principles and proposes a new classification system for each principle. The findings reveal both a need for and significant barriers to standardising criteria for TAI evaluation. The proposed classification contributes to the development, selection and standardization of evaluation criteria for TAI governance.
- Abstract(参考訳): 本稿では,信頼に値する人工知能(TAI)の評価基準に関する文献の体系的レビューを行い,EUの7つの原則に着目した。
この体系的な文献レビューは、現在の評価基準を特定し、分析し、それらをEU TAI原則にマッピングし、各原則の新しい分類システムを提案する。
この結果から,TAI評価基準の標準化に必要かつ重要な障壁があることが判明した。
提案した分類は, TAIガバナンスの評価基準の開発, 選定, 標準化に寄与する。
関連論文リスト
- Where Assessment Validation and Responsible AI Meet [0.0876953078294908]
本稿では,古典的テスト検証理論と評価固有のドメインに依存しないRAIの原則と実践を考察する統合評価フレームワークを提案する。
このフレームワークは、妥当性議論をサポートする評価のための責任あるAI使用、人間の価値と監視を維持するためのAI倫理との整合性、そしてAI使用に関連するより広範な社会的責任に対処する。
論文 参考訳(メタデータ) (2024-11-04T20:20:29Z) - Unveiling Context-Aware Criteria in Self-Assessing LLMs [28.156979106994537]
本研究では, 文脈認識基準(SALC)を各評価インスタンスに適した動的知識と統合した, 自己評価 LLM フレームワークを提案する。
経験的評価は,本手法が既存のベースライン評価フレームワークを著しく上回っていることを示す。
また,AlpacaEval2リーダボードにおけるLCWin-Rateの改善を,選好データ生成に使用する場合の12%まで改善した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Multi-Criteria Comparison as a Method of Advancing Knowledge-Guided Machine Learning [1.6574413179773761]
本稿では,AI/MLモデルの評価に適用可能な一般化可能なモデル評価手法について述べる。
本手法は,複数の科学的,理論的,実践的基準にまたがる,様々なタイプの候補モデルと構造の評価を行う。
論文 参考訳(メタデータ) (2024-03-18T14:50:48Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - A Meta Survey of Quality Evaluation Criteria in Explanation Methods [0.5801044612920815]
説明可能な人工知能(XAI)において、説明方法とその評価が重要な問題となっている。
最も正確なAIモデルは透明性と理解性の低い不透明であるため、バイアスの検出と不確実性の制御には説明が不可欠である。
説明方法の品質を評価する際には、選択すべき基準が多々ある。
論文 参考訳(メタデータ) (2022-03-25T22:24:21Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - How Trustworthy are Performance Evaluations for Basic Vision Tasks? [46.0590176230731]
本稿では,オブジェクトの集合,オブジェクト検出,インスタンスレベルのセグメンテーション,マルチオブジェクトトラッキングを含む基本的な視覚タスクの性能評価基準について検討する。
既存の基準によるアルゴリズムのランキングは、パラメータの選択によって変動し、その評価が信頼できない。
この研究は、(i)信頼性のパラメータに対する堅牢性、(ii)健全性テストにおける文脈意味性、(iii)計量特性のような数学的要求との整合性を必要とする性能基準に対する信頼性の概念を示唆する。
論文 参考訳(メタデータ) (2020-08-08T14:21:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。