論文の概要: Variance-Bounded Evaluation without Ground Truth: VB-Score
- arxiv url: http://arxiv.org/abs/2509.22751v1
- Date: Fri, 26 Sep 2025 07:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.851169
- Title: Variance-Bounded Evaluation without Ground Truth: VB-Score
- Title(参考訳): 接地真実のない変数境界評価:VBスコア
- Authors: Kaihua Ding,
- Abstract要約: 基礎的真理を必要とせず,有効性とロバスト性の両方を測定する分散境界評価フレームワークであるVB-Scoreを紹介する。
クエリや入力が与えられた場合、VB-Scoreは妥当な解釈を列挙し、確率を割り当て、分散によって罰せられる期待成功による出力を評価し、インテント間の一貫したパフォーマンスに報いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable evaluation is a central challenge in machine learning when tasks lack ground truth labels or involve ambiguity and noise. Conventional frameworks, rooted in the Cranfield paradigm and label-based metrics, fail in such cases because they cannot assess how robustly a system performs under uncertain interpretations. We introduce VB-Score, a variance-bounded evaluation framework that measures both effectiveness and robustness without requiring ground truth. Given a query or input, VB-Score enumerates plausible interpretations, assigns probabilities, and evaluates output by expected success penalized by variance, rewarding consistent performance across intents. We provide a formal analysis of VB-Score, establishing range, monotonicity, and stability properties, and relate it to risk-sensitive measures such as mean-variance utility. Experiments on ambiguous queries and entity-centric retrieval tasks show that VB-Score surfaces robustness differences hidden by conventional metrics. By enabling reproducible, label-free evaluation, VB-Score offers a principled foundation for benchmarking machine learning systems in ambiguous or label-scarce domains.
- Abstract(参考訳): 信頼性評価は、タスクに真実のラベルがない場合やあいまいさやノイズが伴う場合、機械学習における中心的な課題である。
従来のフレームワークはクランフィールドパラダイムとラベルベースのメトリクスをルーツとしているが、不確実な解釈の下でシステムがいかに堅牢に機能するかを評価することができないため、そのような場合には失敗する。
基礎的真理を必要とせず,有効性とロバスト性の両方を測定する分散境界評価フレームワークであるVB-Scoreを紹介する。
クエリや入力が与えられた場合、VB-Scoreは妥当な解釈を列挙し、確率を割り当て、分散によって罰せられる期待成功による出力を評価し、インテント間の一貫したパフォーマンスに報いる。
本稿では, VB-Score の形式解析を行い, 範囲, 単調性, 安定性特性を定式化し, 平均分散ユーティリティなどのリスクに敏感な尺度に関連付ける。
不明瞭なクエリとエンティティ中心の検索タスクの実験は、VBスコアが従来のメトリクスによって隠された堅牢性の違いを表面的に表すことを示している。
VB-Scoreは再現性のあるラベルのない評価を可能にすることで、あいまいなドメインやラベルスカースドメインで機械学習システムのベンチマークを行うための基本的な基盤を提供する。
関連論文リスト
- CIRCLE: A Framework for Evaluating AI from a Real-World Lens [10.028017198571833]
CIRCLEは、モデル中心のパフォーマンスメトリクスと、デプロイメントにおけるAIの実体化された結果とのギャップを埋めることを目的としている。
CIRCLEは、コンテキストに敏感な質的洞察とスケーラブルな定量的メトリクスをリンクするための構造化された予測プロトコルを提供する。
論文 参考訳(メタデータ) (2026-02-27T14:43:23Z) - The Necessity of a Unified Framework for LLM-Based Agent Evaluation [46.631678638677386]
汎用エージェントは基本的な進歩を見てきた。
これらのエージェントを評価すると、静的QAベンチマークと区別する固有の課題が提示される。
エージェント評価の厳格な向上には統一評価フレームワークが不可欠である。
論文 参考訳(メタデータ) (2026-02-03T08:18:37Z) - Robust Verification of Controllers under State Uncertainty via Hamilton-Jacobi Reachability Analysis [49.31947916567367]
Hamilton-Jacobi (J) リーチビリティ解析は、最悪の不確実性の下で最適なリーチビリティを計算できる一般的な非線形システムに対する一般的な形式的検証ツールである。
この作業は、HJローバーを介してRobust Verification Controllersのための、HJベースのリーチビリティベースのシステム検証フレームワークである。
本稿では,Ro-CoReの安全性検証とコントローラ設計のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-11-18T18:55:20Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Safe and Certifiable AI Systems: Concepts, Challenges, and Lessons Learned [45.44933002008943]
この白書は、T"UV AUSTRIA Trusted AIフレームワークを提示する。
エンド・ツー・エンドの監査カタログであり、機械学習システムの評価と認定のための方法論である。
セキュアなソフトウェア開発、機能要件、倫理とデータプライバシという3つの柱の上に構築されているのは、EU AI Actの高レベルの義務を、特定かつテスト可能な基準に翻訳するものです。
論文 参考訳(メタデータ) (2025-09-08T17:52:08Z) - Ethical AI: Towards Defining a Collective Evaluation Framework [0.3413711585591077]
人工知能(AI)は医療、金融、自律システムといった分野を変えつつある。
しかし、その迅速な統合は、データ所有権、プライバシー、およびシステムバイアスに関する緊急の倫理的懸念を提起する。
本稿では,意味不明で解釈可能な単位のオントロジブロック上に構築されたモジュール型倫理的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T21:10:47Z) - Position: Bayesian Statistics Facilitates Stakeholder Participation in Evaluation of Generative AI [0.0]
ジェネレーティブAI(GenAI)システムの評価は、公共政策や意思決定において重要な役割を果たす。
既存の手法はベンチマーク駆動の点推定比較に頼ることによって制限されることが多い。
本稿では,ベイズ統計学をこれらの課題に対処するための原則的枠組みとして活用することを主張する。
論文 参考訳(メタデータ) (2025-04-21T16:31:15Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Demographic Benchmarking: Bridging Socio-Technical Gaps in Bias Detection [0.0]
本稿では、ITTACA AI監査プラットフォームが、AIレコメンデータシステムの監査において、階層的ベンチマークにどのように取り組むかを説明する。
フレームワークは、単に測定するだけでなく、特定のパフォーマンス指標の許容範囲を確立することができるので、監査役として役立ちます。
我々のアプローチは、社会デマトグラフィーの洞察を直接AIシステムに統合し、バイアスを減らし、全体的なパフォーマンスを改善する。
論文 参考訳(メタデータ) (2025-01-27T12:14:49Z) - ValUES: A Framework for Systematic Validation of Uncertainty Estimation in Semantic Segmentation [2.1517210693540005]
不確実性推定は、セマンティックセグメンテーション法において不可欠で研究の難しい要素である。
データ関連とモデル関連の不確実性は実際に分離できるのか?
不確実性手法のどのコンポーネントが現実世界のパフォーマンスに欠かせないのか?
論文 参考訳(メタデータ) (2024-01-16T17:02:21Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Evaluating AI systems under uncertain ground truth: a case study in dermatology [43.8328264420381]
不確実性を無視することは、モデル性能の過度に楽観的な推定につながることを示す。
皮膚状態の分類では,データセットの大部分が重大な真理不確実性を示すことが判明した。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - Fairness Score and Process Standardization: Framework for Fairness
Certification in Artificial Intelligence Systems [0.4297070083645048]
本稿では,データ駆動型AIシステムの公平性を測定するための新しいフェアネススコアを提案する。
また、公正性の概念を運用し、そのようなシステムの商用展開を容易にするためのフレームワークも提供する。
論文 参考訳(メタデータ) (2022-01-10T15:45:12Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。