論文の概要: GaRAGe: A Benchmark with Grounding Annotations for RAG Evaluation
- arxiv url: http://arxiv.org/abs/2506.07671v1
- Date: Mon, 09 Jun 2025 11:47:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.93598
- Title: GaRAGe: A Benchmark with Grounding Annotations for RAG Evaluation
- Title(参考訳): GaRAGe: RAG評価のための接地アノテーション付きベンチマーク
- Authors: Ionut-Teodor Sorodoc, Leonardo F. R. Ribeiro, Rexhina Blloshmi, Christopher Davis, Adrià de Gispert,
- Abstract要約: GaRAGeは大規模なRAGベンチマークであり、人間によって計算された長文の回答と各接地パスのアノテーションがある。
我々のベンチマークには、複雑さ、ダイナミズム、トピックに関する2366の質問が含まれており、プライベートドキュメントセットとWebから取得した35K以上の注釈付きパスが含まれている。
- 参考スコア(独自算出の注目度): 14.494723040096902
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present GaRAGe, a large RAG benchmark with human-curated long-form answers and annotations of each grounding passage, allowing a fine-grained evaluation of whether LLMs can identify relevant grounding when generating RAG answers. Our benchmark contains 2366 questions of diverse complexity, dynamism, and topics, and includes over 35K annotated passages retrieved from both private document sets and the Web, to reflect real-world RAG use cases. This makes it an ideal test bed to evaluate an LLM's ability to identify only the relevant information necessary to compose a response, or provide a deflective response when there is insufficient information. Evaluations of multiple state-of-the-art LLMs on GaRAGe show that the models tend to over-summarise rather than (a) ground their answers strictly on the annotated relevant passages (reaching at most a Relevance-Aware Factuality Score of 60%), or (b) deflect when no relevant grounding is available (reaching at most 31% true positive rate in deflections). The F1 in attribution to relevant sources is at most 58.9%, and we show that performance is particularly reduced when answering time-sensitive questions and when having to draw knowledge from sparser private grounding sources.
- Abstract(参考訳): 本稿では,人為的な長文回答と各接地パスのアノテーションを備えた大規模RAGベンチマークであるGaRAGeについて,RAG応答を生成する際に,LLMが関連する接地を識別できるかどうかを詳細に評価する。
我々のベンチマークには、複雑さ、ダイナミズム、トピックに関する2366の質問が含まれており、実際のRAGのユースケースを反映するために、プライベートドキュメントセットとWebの両方から取得された35K以上の注釈付きパスが含まれています。
これにより、LCMが応答を構成するために必要な情報のみを識別したり、情報が不十分な場合に偏向応答を与える能力を評価するのが理想的なテストベッドとなる。
GaRAGe上での複数の最先端LCMの評価は、モデルが過要約する傾向があることを示している。
(a)注釈付き関連通路(少なくとも60%の関連性認識事実スコア)に厳格に答える、又は
(b)関連する接地が得られない場合の偏向(偏向における正の31%以上)。
関連する情報源への帰属のF1は,少なくとも58.9%であり,時間に敏感な質問に答える場合や,スペーサーの私的根拠から知識を引き出す場合,特に性能が低下することを示す。
関連論文リスト
- Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
W-RAGは、下流タスクから弱いトレーニング信号を抽出し、検索者がタスクに最も利益をもたらすパスを優先順位付けするように微調整する手法である。
我々は4つの公開可能なOpenQAデータセットの包括的な実験を行い、我々のアプローチが検索とOpenQAのパフォーマンスを向上させることを実証した。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。