論文の概要: Practical RAG Evaluation: A Rarity-Aware Set-Based Metric and Cost-Latency-Quality Trade-offs
- arxiv url: http://arxiv.org/abs/2511.09545v1
- Date: Thu, 13 Nov 2025 02:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.617774
- Title: Practical RAG Evaluation: A Rarity-Aware Set-Based Metric and Cost-Latency-Quality Trade-offs
- Title(参考訳): 実践的なRAG評価: 密集したセットベースのメトリクスとコスト-レイテンシ-品質トレードオフ
- Authors: Etienne Dallaire,
- Abstract要約: 本稿では,生産型RAGにおける推算ゲームについて述べる。
黄金のセットを構築し、監査するための標準化された再現可能な方法はありません。
Rath-gs (MIT) はプラケット=ルーシがリストワイドに改良したリーン・ゴールデンセットのパイプラインである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the guessing game in building production RAG. Classical rank-centric IR metrics (nDCG/MAP/MRR) are a poor fit for RAG, where LLMs consume a set of passages rather than a browsed list; position discounts and prevalence-blind aggregation miss what matters: whether the prompt at cutoff K contains the decisive evidence. Second, there is no standardized, reproducible way to build and audit golden sets. Third, leaderboards exist but lack end-to-end, on-corpus benchmarking that reflects production trade-offs. Fourth, how state-of-the-art embedding models handle proper-name identity signals and conversational noise remains opaque. To address these, we contribute: (1) RA-nWG@K, a rarity-aware, per-query-normalized set score, and operational ceilings via the pool-restricted oracle ceiling (PROC) and the percentage of PROC (%PROC) to separate retrieval from ordering headroom within a Cost-Latency-Quality (CLQ) lens; (2) rag-gs (MIT), a lean golden-set pipeline with Plackett-Luce listwise refinement whose iterative updates outperform single-shot LLM ranking; (3) a comprehensive benchmark on a production RAG (scientific-papers corpus) spanning dense retrieval, hybrid dense+BM25, embedding models and dimensions, cross-encoder rerankers, ANN (HNSW), and quantization; and (4) targeted diagnostics that quantify proper-name identity signal and conversational-noise sensitivity via identity-destroying and formatting ablations. Together, these components provide practitioner Pareto guidance and auditable guardrails to support reproducible, budget/SLA-aware decisions.
- Abstract(参考訳): 本稿では,生産型RAGにおける推算ゲームについて述べる。
古典的なランク中心のIRメトリクス(nDCG/MAP/MRR)はRAGには適さないが、LLMは閲覧リストではなく一連のパスを消費する。
第二に、ゴールデンセットを構築して監査するための標準化された再現可能な方法はありません。
第3に、リーダボードは存在するが、生産トレードオフを反映したエンドツーエンドの企業ベンチマークが欠如している。
第4に、最先端の埋め込みモデルがどのように適切な名前の識別信号や会話のノイズを処理するかは、いまだに不透明である。
RA-nWG@K, 希少な認識, クエリごとの正規化セットスコア, および, プール制限オラクル天井(PROC) と PROC (%PROC) のパーセンテージを用いて, コストレイテンシー・クオリティ(CLQ) レンズ内のヘッドルームの順序付けからの検索を分離するためのPROC (%PROC) のパーセンテージ, (2) rag-gs (MIT), 反復的な更新がシングルショットLLMランキングを上回ったPlackett-Luceリストワイドリファインメントによるリーンゴールデンセットパイプライン, (3) 密集型検索, 密集型+BM25, 組込みモデル, クロスコード再コーディング, ANN (HNS) , 量子化, 量子化による識別, 識別, 個人識別の定量化を行うための総合的なベンチマーク。
これらのコンポーネントは実践者のParetoガイダンスと監査可能なガードレールを提供し、再現性、予算、SLA対応の意思決定をサポートする。
関連論文リスト
- TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - Automated Skill Decomposition Meets Expert Ontologies: Bridging the Granularity Gap with LLMs [1.2891210250935148]
本稿では,Large Language Models (LLM) を用いた自動スキル分解について検討する。
我々のフレームワークは、パイプラインをプロンプトと生成から正規化とオントロジーノードとのアライメントまで標準化する。
出力を評価するために、コンテンツ精度を評価するために最適な埋め込みベースのマッチングを使用するF1スコアと、粒度を評価するために構造的に正しい配置を信用する階層型F1スコアの2つの指標を導入する。
論文 参考訳(メタデータ) (2025-10-13T12:03:06Z) - SETR: A Two-Stage Semantic-Enhanced Framework for Zero-Shot Composed Image Retrieval [4.230223288110963]
Zero-shot Composed Image Retrieval (ZS-CIR)は、トリプルトアノテーションに頼ることなく、参照画像と相対テキストが与えられたターゲット画像を取得することを目的としている。
既存のCLIPベースの手法では、(1)組合ベースの特徴融合は、意図した変更を希釈する無関係な背景の詳細を担いながら、すべての視覚的手がかりを無差別に集約し、(2)CLIP埋め込みからのグローバルなコサイン類似性は、きめ細かいセマンティックな関係を解く能力に欠ける。
論文 参考訳(メタデータ) (2025-09-30T09:41:52Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - PrismRAG: Boosting RAG Factuality with Distractor Resilience and Strategized Reasoning [57.89188317734747]
PrismRAGはこのモデルを、イントラクタを意識したQAペアで訓練し、金の証拠と微妙なイントラクタパスを混合する。
LLMを計画し、合理化し、人間工学的な指示に頼らずに合成する推論中心の習慣を取り入れている。
論文 参考訳(メタデータ) (2025-07-25T00:15:31Z) - PRGB Benchmark: A Robust Placeholder-Assisted Algorithm for Benchmarking Retrieval-Augmented Generation [15.230902967865925]
Retrieval-Augmented Generation (RAG)は、外部知識を統合することで、大規模言語モデル(LLM)を強化する。
現在のベンチマークでは、ノイズの堅牢性などの幅広い側面を強調しているが、文書利用に関する体系的できめ細かい評価フレームワークは欠如している。
我々のベンチマークは、より信頼性が高く効率的なRAGシステムを開発するための再現可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-07-23T16:14:08Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。