論文の概要: Variance-Bounded Evaluation without Ground Truth: VB-Score
- arxiv url: http://arxiv.org/abs/2509.22751v1
- Date: Fri, 26 Sep 2025 07:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.851169
- Title: Variance-Bounded Evaluation without Ground Truth: VB-Score
- Title(参考訳): 接地真実のない変数境界評価:VBスコア
- Authors: Kaihua Ding,
- Abstract要約: 基礎的真理を必要とせず,有効性とロバスト性の両方を測定する分散境界評価フレームワークであるVB-Scoreを紹介する。
クエリや入力が与えられた場合、VB-Scoreは妥当な解釈を列挙し、確率を割り当て、分散によって罰せられる期待成功による出力を評価し、インテント間の一貫したパフォーマンスに報いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable evaluation is a central challenge in machine learning when tasks lack ground truth labels or involve ambiguity and noise. Conventional frameworks, rooted in the Cranfield paradigm and label-based metrics, fail in such cases because they cannot assess how robustly a system performs under uncertain interpretations. We introduce VB-Score, a variance-bounded evaluation framework that measures both effectiveness and robustness without requiring ground truth. Given a query or input, VB-Score enumerates plausible interpretations, assigns probabilities, and evaluates output by expected success penalized by variance, rewarding consistent performance across intents. We provide a formal analysis of VB-Score, establishing range, monotonicity, and stability properties, and relate it to risk-sensitive measures such as mean-variance utility. Experiments on ambiguous queries and entity-centric retrieval tasks show that VB-Score surfaces robustness differences hidden by conventional metrics. By enabling reproducible, label-free evaluation, VB-Score offers a principled foundation for benchmarking machine learning systems in ambiguous or label-scarce domains.
- Abstract(参考訳): 信頼性評価は、タスクに真実のラベルがない場合やあいまいさやノイズが伴う場合、機械学習における中心的な課題である。
従来のフレームワークはクランフィールドパラダイムとラベルベースのメトリクスをルーツとしているが、不確実な解釈の下でシステムがいかに堅牢に機能するかを評価することができないため、そのような場合には失敗する。
基礎的真理を必要とせず,有効性とロバスト性の両方を測定する分散境界評価フレームワークであるVB-Scoreを紹介する。
クエリや入力が与えられた場合、VB-Scoreは妥当な解釈を列挙し、確率を割り当て、分散によって罰せられる期待成功による出力を評価し、インテント間の一貫したパフォーマンスに報いる。
本稿では, VB-Score の形式解析を行い, 範囲, 単調性, 安定性特性を定式化し, 平均分散ユーティリティなどのリスクに敏感な尺度に関連付ける。
不明瞭なクエリとエンティティ中心の検索タスクの実験は、VBスコアが従来のメトリクスによって隠された堅牢性の違いを表面的に表すことを示している。
VB-Scoreは再現性のあるラベルのない評価を可能にすることで、あいまいなドメインやラベルスカースドメインで機械学習システムのベンチマークを行うための基本的な基盤を提供する。
関連論文リスト
- TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - ValUES: A Framework for Systematic Validation of Uncertainty Estimation in Semantic Segmentation [2.1517210693540005]
不確実性推定は、セマンティックセグメンテーション法において不可欠で研究の難しい要素である。
データ関連とモデル関連の不確実性は実際に分離できるのか?
不確実性手法のどのコンポーネントが現実世界のパフォーマンスに欠かせないのか?
論文 参考訳(メタデータ) (2024-01-16T17:02:21Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Evaluating AI systems under uncertain ground truth: a case study in dermatology [43.8328264420381]
不確実性を無視することは、モデル性能の過度に楽観的な推定につながることを示す。
皮膚状態の分類では,データセットの大部分が重大な真理不確実性を示すことが判明した。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。