Fugu-MT 論文翻訳(概要): A Comprehensive Survey and Classification of Evaluation Criteria for Trustworthy Artificial Intelligence

論文の概要: A Comprehensive Survey and Classification of Evaluation Criteria for Trustworthy Artificial Intelligence

arxiv url: http://arxiv.org/abs/2410.17281v1
Date: Thu, 10 Oct 2024 11:54:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.184815
Title: A Comprehensive Survey and Classification of Evaluation Criteria for Trustworthy Artificial Intelligence
Title（参考訳）: 信頼できる人工知能の評価基準の総合的調査と分類
Authors: Louise McCormack, Malika Bendechache,
Abstract要約: この体系的な文献レビューは、現在の評価基準を特定し、分析し、それらをEU TAI原則にマッピングし、各原則の新しい分類システムを提案する。この結果から,TAI評価基準の標準化に必要かつ重要な障壁があることが判明した。提案した分類は, TAIガバナンスの評価基準の開発, 選定, 標準化に寄与する。
参考スコア（独自算出の注目度）: 0.552480439325792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a systematic review of the literature on evaluation criteria for Trustworthy Artificial Intelligence (TAI), with a focus on the seven EU principles of TAI. This systematic literature review identifies and analyses current evaluation criteria, maps them to the EU TAI principles and proposes a new classification system for each principle. The findings reveal both a need for and significant barriers to standardising criteria for TAI evaluation. The proposed classification contributes to the development, selection and standardization of evaluation criteria for TAI governance.
Abstract（参考訳）: 本稿では,信頼に値する人工知能(TAI)の評価基準に関する文献の体系的レビューを行い,EUの7つの原則に着目した。この体系的な文献レビューは、現在の評価基準を特定し、分析し、それらをEU TAI原則にマッピングし、各原則の新しい分類システムを提案する。この結果から,TAI評価基準の標準化に必要かつ重要な障壁があることが判明した。提案した分類は, TAIガバナンスの評価基準の開発, 選定, 標準化に寄与する。

関連論文リスト

Standards for trustworthy AI in the European Union: technical rationale, structural challenges, and an implementation path [0.0]
この白書は、AI法に基づく欧州のAI標準化の技術的基盤について考察する。 CEN/CENELECの標準化プロセスを説明するとともに、AIがユニークな課題を提起する理由を分析する。
論文参考訳（メタデータ） (2026-01-21T11:58:47Z)
Preliminary suggestions for rigorous GPAI model evaluations [0.0]
本論文では,汎用AI(GPAI)評価プラクティスの予備的なコンパイルについて述べる。これには、人間の隆起研究とベンチマーク評価のための提案が含まれている。提案は評価ライフサイクルの4つの段階(設計、実装、実行、ドキュメント)にまたがる。
論文参考訳（メタデータ） (2025-07-22T03:27:42Z)
Towards an Approach for Evaluating the Impact of AI Standards [0.0]
AI標準の目標は、AIを使用するシステムにおけるイノベーションと公的な信頼を促進することである。これらの標準化活動がイノベーションと信頼の目標に与える影響を測定するための形式的あるいは共有的な方法が欠如している。本稿では,AI標準の効果を評価するための分析手法を提案する。
論文参考訳（メタデータ） (2025-06-16T13:58:59Z)
The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [57.1838332916627]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。広範囲に展開したことにより、大きな安全上の懸念がもたらされた。 LLMの生成したコンテンツは、特に敵の文脈において、毒性、偏見、誤情報などの安全でない振る舞いを示す。
論文参考訳（メタデータ） (2025-06-06T05:50:50Z)
SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
Evaluating Step-by-step Reasoning Traces: A Survey [3.895864050325129]
評価基準を4つのトップレベルカテゴリ(基底性、妥当性、コヒーレンス、有用性)で分類することを提案する。次に、それらの実装に基づいてメトリクスを分類し、それぞれの基準を評価するために使用されるメトリクスを調査し、評価モデルが異なる基準をまたいで転送できるかどうかを調査する。
論文参考訳（メタデータ） (2025-02-17T19:58:31Z)
Where Assessment Validation and Responsible AI Meet [0.0876953078294908]
本稿では,古典的テスト検証理論と評価固有のドメインに依存しないRAIの原則と実践を考察する統合評価フレームワークを提案する。このフレームワークは、妥当性議論をサポートする評価のための責任あるAI使用、人間の価値と監視を維持するためのAI倫理との整合性、そしてAI使用に関連するより広範な社会的責任に対処する。
論文参考訳（メタデータ） (2024-11-04T20:20:29Z)
Unveiling Context-Aware Criteria in Self-Assessing LLMs [28.156979106994537]
本研究では, 文脈認識基準(SALC)を各評価インスタンスに適した動的知識と統合した, 自己評価 LLM フレームワークを提案する。経験的評価は,本手法が既存のベースライン評価フレームワークを著しく上回っていることを示す。また,AlpacaEval2リーダボードにおけるLCWin-Rateの改善を,選好データ生成に使用する場合の12%まで改善した。
論文参考訳（メタデータ） (2024-10-28T21:18:49Z)
Pessimistic Evaluation [58.736490198613154]
情報アクセスシステムの評価は,情報アクセスの伝統に沿わない実用的価値を前提としている。我々は,最悪のケースユーティリティに着目した情報アクセスシステムの悲観的評価を提唱する。
論文参考訳（メタデータ） (2024-10-17T15:40:09Z)
Multi-Criteria Comparison as a Method of Advancing Knowledge-Guided Machine Learning [1.6574413179773761]
本稿では,AI/MLモデルの評価に適用可能な一般化可能なモデル評価手法について述べる。本手法は,複数の科学的,理論的,実践的基準にまたがる,様々なタイプの候補モデルと構造の評価を行う。
論文参考訳（メタデータ） (2024-03-18T14:50:48Z)
HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。 HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。 3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文参考訳（メタデータ） (2024-02-24T08:01:32Z)
KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。 KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文参考訳（メタデータ） (2023-03-27T17:45:38Z)
Towards a multi-stakeholder value-based assessment framework for algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文参考訳（メタデータ） (2022-05-09T19:28:32Z)
A Meta Survey of Quality Evaluation Criteria in Explanation Methods [0.5801044612920815]
説明可能な人工知能(XAI)において、説明方法とその評価が重要な問題となっている。最も正確なAIモデルは透明性と理解性の低い不透明であるため、バイアスの検出と不確実性の制御には説明が不可欠である。説明方法の品質を評価する際には、選択すべき基準が多々ある。
論文参考訳（メタデータ） (2022-03-25T22:24:21Z)
Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文参考訳（メタデータ） (2020-10-01T15:33:09Z)
How Trustworthy are Performance Evaluations for Basic Vision Tasks? [46.0590176230731]
本稿では,オブジェクトの集合,オブジェクト検出,インスタンスレベルのセグメンテーション,マルチオブジェクトトラッキングを含む基本的な視覚タスクの性能評価基準について検討する。既存の基準によるアルゴリズムのランキングは、パラメータの選択によって変動し、その評価が信頼できない。この研究は、(i)信頼性のパラメータに対する堅牢性、(ii)健全性テストにおける文脈意味性、(iii)計量特性のような数学的要求との整合性を必要とする性能基準に対する信頼性の概念を示唆する。
論文参考訳（メタデータ） (2020-08-08T14:21:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。