論文の概要: Coverage, Not Averages: Semantic Stratification for Trustworthy Retrieval Evaluation
- arxiv url: http://arxiv.org/abs/2604.20763v1
- Date: Wed, 22 Apr 2026 16:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.239964
- Title: Coverage, Not Averages: Semantic Stratification for Trustworthy Retrieval Evaluation
- Title(参考訳): 平均的ではなくカバー - 信頼できる検索のための意味的階層化
- Authors: Andrew Klearman, Radu Revutchi, Rohin Garg, Rishav Chakravarti, Samuel Marc Denton, Yuan Xue,
- Abstract要約: 検索向上世代(RAG)における検索品質は精度とロバスト性の主要なボトルネックである
我々は,評価を統計的推定問題として定式化し,評価セットの構成によってメートル法信頼性が根本的に制限されていることを示す。
その結果,(1)検索のセマンティック・システマティクスにまたがる形式的カバレッジ保証,(2)検索の失敗モードへの解釈可能な可視性を実現した。
- 参考スコア(独自算出の注目度): 3.4588983513116065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval quality is the primary bottleneck for accuracy and robustness in retrieval-augmented generation (RAG). Current evaluation relies on heuristically constructed query sets, which introduce a hidden intrinsic bias. We formalize retrieval evaluation as a statistical estimation problem, showing that metric reliability is fundamentally limited by the evaluation-set construction. We further introduce \emph{semantic stratification}, which grounds evaluation in corpus structure by organizing documents into an interpretable global space of entity-based clusters and systematically generating queries for missing strata. This yields (1) formal semantic coverage guarantees across retrieval regimes and (2) interpretable visibility into retrieval failure modes. Experiments across multiple benchmarks and retrieval methods validate our framework. The results expose systematic coverage gaps, identify structural signals that explain variance in retrieval performance, and show that stratified evaluation yields more stable and transparent assessments while supporting more trustworthy decision-making than aggregate metrics.
- Abstract(参考訳): 検索品質は、検索強化世代(RAG)における精度と堅牢性の主要なボトルネックである。
現在の評価は、隠れた固有のバイアスをもたらす、ヒューリスティックに構築されたクエリセットに依存している。
統計的推定問題として検索評価を定式化し、評価セットの構成によってメートル法信頼性が根本的に制限されていることを示す。
さらに、文書をエンティティベースのクラスタの解釈可能なグローバル空間に整理し、欠落した層に対するクエリを体系的に生成することにより、コーパス構造の評価を基礎とする「emph{semantic stratification」についても紹介する。
その結果,(1)検索体制全体にわたる形式的セマンティックカバレッジの保証,(2)検索障害モードへの解釈可能な可視性が得られた。
複数のベンチマークと検索手法による実験は、我々のフレームワークを検証する。
その結果, 検索性能のばらつきを説明する構造的シグナルを抽出し, 階層化評価により, 総合的指標よりも信頼性の高い意思決定を支援するとともに, より安定かつ透明な評価が得られることを示した。
関連論文リスト
- K$α$LOS finds Consensus: A Meta-Algorithm for Evaluating Inter-Annotator Agreement in Complex Vision Tasks [4.297070083645049]
本稿では,「ローカライゼーションファースト」の原理を一般化した統一メタアルゴリズムであるK$LOSを提案する。
合意を査定する前に空間対応を解消することにより,複雑な分類問題を名目上の信頼性に変換する。
論文 参考訳(メタデータ) (2026-03-28T08:54:05Z) - DREAM: Deep Research Evaluation with Agentic Metrics [21.555357444628044]
本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。
DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。
制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2026-02-21T19:14:31Z) - TOPO-Bench: An Open-Source Topological Mapping Evaluation Framework with Quantifiable Perceptual Aliasing [10.736029638634504]
トポロジカル一貫性をトポロジカルマップの基本特性として定式化し、ローカライゼーション精度が効率的な代理計量を提供することを示す。
本研究では,環境間の公正な比較を可能にするために,データセットのあいまいさに関する最初の定量的尺度を提案する。
すべてのデータセット、ベースライン、評価ツールは完全にオープンソースであり、トポロジカルマッピングにおける一貫した再現可能な研究を促進する。
論文 参考訳(メタデータ) (2025-10-05T08:58:08Z) - SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - Semantic Certainty Assessment in Vector Retrieval Systems: A Novel Framework for Embedding Quality Evaluation [0.0]
ベクトル検索システムは、不均一な埋め込み品質のため、クエリ間で大きな性能ばらつきを示す。
本稿では,量子化ロバストネスと近傍密度のメトリクスを組み合わせることで,クエリレベルでの検索性能を予測するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-08T12:33:11Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。