論文の概要: Variance-Bounded Evaluation of Entity-Centric AI Systems Without Ground Truth: Theory and Measurement
- arxiv url: http://arxiv.org/abs/2509.22751v2
- Date: Mon, 03 Nov 2025 20:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.452002
- Title: Variance-Bounded Evaluation of Entity-Centric AI Systems Without Ground Truth: Theory and Measurement
- Title(参考訳): 地中真理のないエンティティ中心型AIシステムの変数境界評価:理論と測定
- Authors: Kaihua Ding,
- Abstract要約: 本稿では,エンティティ中心型AIシステムのための分散境界評価フレームワークであるVB-Scoreを紹介する。
VB-Scoreは制約緩和とモンテカルロサンプリングを通じて可算解釈を列挙する。
そして、システムの堅牢性を評価するために、システムアウトプットを解釈を越えて予測される成功によって評価し、分散によって罰する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable evaluation of AI systems remains a fundamental challenge when ground truth labels are unavailable, particularly for systems generating natural language outputs like AI chat and agent systems. Many of these AI agents and systems focus on entity-centric tasks. In enterprise contexts, organizations deploy AI systems for entity linking, data integration, and information retrieval where verification against gold standards is often infeasible due to proprietary data constraints. Academic deployments face similar challenges when evaluating AI systems on specialized datasets with ambiguous criteria. Conventional evaluation frameworks, rooted in supervised learning paradigms, fail in such scenarios where single correct answers cannot be defined. We introduce VB-Score, a variance-bounded evaluation framework for entity-centric AI systems that operates without ground truth by jointly measuring effectiveness and robustness. Given system inputs, VB-Score enumerates plausible interpretations through constraint relaxation and Monte Carlo sampling, assigning probabilities that reflect their likelihood. It then evaluates system outputs by their expected success across interpretations, penalized by variance to assess robustness of the system. We provide formal theoretical analysis establishing key properties including range, monotonicity, and stability along with concentration bounds for Monte Carlo estimation. Through case studies on AI systems with ambiguous inputs, we demonstrate that VB-Score reveals robustness differences hidden by conventional evaluation frameworks, offering a principled measurement framework for assessing AI system reliability in label-scarce domains.
- Abstract(参考訳): AIシステムに対する信頼性の高い評価は、特にAIチャットやエージェントシステムのような自然言語出力を生成するシステムにおいて、基礎的な真理ラベルが利用できない場合、依然として根本的な課題である。
これらのAIエージェントやシステムは、エンティティ中心のタスクに重点を置いている。
エンタープライズ環境では、エンティティリンク、データ統合、情報検索のためのAIシステムをデプロイする。
学術的なデプロイメントは、曖昧な基準で専門的なデータセット上でAIシステムを評価する際に、同様の課題に直面します。
教師付き学習パラダイムに根ざした従来の評価フレームワークは、単一の正しい回答が定義できないようなシナリオでは失敗する。
VB-Scoreは,実効性とロバスト性を共同で測定することで,真理なしに動作可能な,エンティティ中心のAIシステムを対象とした分散バウンド評価フレームワークである。
系の入力が与えられたとき、VB-Scoreは制約緩和とモンテカルロサンプリングを通じて可算解釈を列挙し、確率を反映する確率を割り当てる。
そして、システムの堅牢性を評価するために、システムアウトプットを解釈を越えて予測される成功によって評価し、分散によって罰する。
我々は、モンテカルロ推定のための濃度境界とともに、範囲、単調性、安定性を含む重要な性質を確立する公式な理論的解析を提供する。
あいまいな入力を持つAIシステムのケーススタディを通じて、VB-Scoreは従来の評価フレームワークに隠された堅牢性の違いを明らかにし、ラベルスカースドメインにおけるAIシステムの信頼性を評価するための基本的な測定フレームワークを提供する。
関連論文リスト
- CIRCLE: A Framework for Evaluating AI from a Real-World Lens [10.028017198571833]
CIRCLEは、モデル中心のパフォーマンスメトリクスと、デプロイメントにおけるAIの実体化された結果とのギャップを埋めることを目的としている。
CIRCLEは、コンテキストに敏感な質的洞察とスケーラブルな定量的メトリクスをリンクするための構造化された予測プロトコルを提供する。
論文 参考訳(メタデータ) (2026-02-27T14:43:23Z) - The Necessity of a Unified Framework for LLM-Based Agent Evaluation [46.631678638677386]
汎用エージェントは基本的な進歩を見てきた。
これらのエージェントを評価すると、静的QAベンチマークと区別する固有の課題が提示される。
エージェント評価の厳格な向上には統一評価フレームワークが不可欠である。
論文 参考訳(メタデータ) (2026-02-03T08:18:37Z) - Robust Verification of Controllers under State Uncertainty via Hamilton-Jacobi Reachability Analysis [49.31947916567367]
Hamilton-Jacobi (J) リーチビリティ解析は、最悪の不確実性の下で最適なリーチビリティを計算できる一般的な非線形システムに対する一般的な形式的検証ツールである。
この作業は、HJローバーを介してRobust Verification Controllersのための、HJベースのリーチビリティベースのシステム検証フレームワークである。
本稿では,Ro-CoReの安全性検証とコントローラ設計のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-11-18T18:55:20Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Safe and Certifiable AI Systems: Concepts, Challenges, and Lessons Learned [45.44933002008943]
この白書は、T"UV AUSTRIA Trusted AIフレームワークを提示する。
エンド・ツー・エンドの監査カタログであり、機械学習システムの評価と認定のための方法論である。
セキュアなソフトウェア開発、機能要件、倫理とデータプライバシという3つの柱の上に構築されているのは、EU AI Actの高レベルの義務を、特定かつテスト可能な基準に翻訳するものです。
論文 参考訳(メタデータ) (2025-09-08T17:52:08Z) - Ethical AI: Towards Defining a Collective Evaluation Framework [0.3413711585591077]
人工知能(AI)は医療、金融、自律システムといった分野を変えつつある。
しかし、その迅速な統合は、データ所有権、プライバシー、およびシステムバイアスに関する緊急の倫理的懸念を提起する。
本稿では,意味不明で解釈可能な単位のオントロジブロック上に構築されたモジュール型倫理的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T21:10:47Z) - Position: Bayesian Statistics Facilitates Stakeholder Participation in Evaluation of Generative AI [0.0]
ジェネレーティブAI(GenAI)システムの評価は、公共政策や意思決定において重要な役割を果たす。
既存の手法はベンチマーク駆動の点推定比較に頼ることによって制限されることが多い。
本稿では,ベイズ統計学をこれらの課題に対処するための原則的枠組みとして活用することを主張する。
論文 参考訳(メタデータ) (2025-04-21T16:31:15Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Demographic Benchmarking: Bridging Socio-Technical Gaps in Bias Detection [0.0]
本稿では、ITTACA AI監査プラットフォームが、AIレコメンデータシステムの監査において、階層的ベンチマークにどのように取り組むかを説明する。
フレームワークは、単に測定するだけでなく、特定のパフォーマンス指標の許容範囲を確立することができるので、監査役として役立ちます。
我々のアプローチは、社会デマトグラフィーの洞察を直接AIシステムに統合し、バイアスを減らし、全体的なパフォーマンスを改善する。
論文 参考訳(メタデータ) (2025-01-27T12:14:49Z) - ValUES: A Framework for Systematic Validation of Uncertainty Estimation in Semantic Segmentation [2.1517210693540005]
不確実性推定は、セマンティックセグメンテーション法において不可欠で研究の難しい要素である。
データ関連とモデル関連の不確実性は実際に分離できるのか?
不確実性手法のどのコンポーネントが現実世界のパフォーマンスに欠かせないのか?
論文 参考訳(メタデータ) (2024-01-16T17:02:21Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Evaluating AI systems under uncertain ground truth: a case study in dermatology [43.8328264420381]
不確実性を無視することは、モデル性能の過度に楽観的な推定につながることを示す。
皮膚状態の分類では,データセットの大部分が重大な真理不確実性を示すことが判明した。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - Fairness Score and Process Standardization: Framework for Fairness
Certification in Artificial Intelligence Systems [0.4297070083645048]
本稿では,データ駆動型AIシステムの公平性を測定するための新しいフェアネススコアを提案する。
また、公正性の概念を運用し、そのようなシステムの商用展開を容易にするためのフレームワークも提供する。
論文 参考訳(メタデータ) (2022-01-10T15:45:12Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。