Fugu-MT 論文翻訳(概要): GaRAGe: A Benchmark with Grounding Annotations for RAG Evaluation

論文の概要: GaRAGe: A Benchmark with Grounding Annotations for RAG Evaluation

arxiv url: http://arxiv.org/abs/2506.07671v1
Date: Mon, 09 Jun 2025 11:47:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.93598
Title: GaRAGe: A Benchmark with Grounding Annotations for RAG Evaluation
Title（参考訳）: GaRAGe: RAG評価のための接地アノテーション付きベンチマーク
Authors: Ionut-Teodor Sorodoc, Leonardo F. R. Ribeiro, Rexhina Blloshmi, Christopher Davis, Adrià de Gispert,
Abstract要約: GaRAGeは大規模なRAGベンチマークであり、人間によって計算された長文の回答と各接地パスのアノテーションがある。我々のベンチマークには、複雑さ、ダイナミズム、トピックに関する2366の質問が含まれており、プライベートドキュメントセットとWebから取得した35K以上の注釈付きパスが含まれている。
参考スコア（独自算出の注目度）: 14.494723040096902
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present GaRAGe, a large RAG benchmark with human-curated long-form answers and annotations of each grounding passage, allowing a fine-grained evaluation of whether LLMs can identify relevant grounding when generating RAG answers. Our benchmark contains 2366 questions of diverse complexity, dynamism, and topics, and includes over 35K annotated passages retrieved from both private document sets and the Web, to reflect real-world RAG use cases. This makes it an ideal test bed to evaluate an LLM's ability to identify only the relevant information necessary to compose a response, or provide a deflective response when there is insufficient information. Evaluations of multiple state-of-the-art LLMs on GaRAGe show that the models tend to over-summarise rather than (a) ground their answers strictly on the annotated relevant passages (reaching at most a Relevance-Aware Factuality Score of 60%), or (b) deflect when no relevant grounding is available (reaching at most 31% true positive rate in deflections). The F1 in attribution to relevant sources is at most 58.9%, and we show that performance is particularly reduced when answering time-sensitive questions and when having to draw knowledge from sparser private grounding sources.
Abstract（参考訳）: 本稿では,人為的な長文回答と各接地パスのアノテーションを備えた大規模RAGベンチマークであるGaRAGeについて,RAG応答を生成する際に,LLMが関連する接地を識別できるかどうかを詳細に評価する。我々のベンチマークには、複雑さ、ダイナミズム、トピックに関する2366の質問が含まれており、実際のRAGのユースケースを反映するために、プライベートドキュメントセットとWebの両方から取得された35K以上の注釈付きパスが含まれています。これにより、LCMが応答を構成するために必要な情報のみを識別したり、情報が不十分な場合に偏向応答を与える能力を評価するのが理想的なテストベッドとなる。 GaRAGe上での複数の最先端LCMの評価は、モデルが過要約する傾向があることを示している。 (a)注釈付き関連通路(少なくとも60%の関連性認識事実スコア)に厳格に答える、又は (b)関連する接地が得られない場合の偏向(偏向における正の31%以上)。関連する情報源への帰属のF1は,少なくとも58.9%であり,時間に敏感な質問に答える場合や,スペーサーの私的根拠から知識を引き出す場合,特に性能が低下することを示す。

関連論文リスト

Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
Question Decomposition for Retrieval-Augmented Generation [2.6409776648054764]
本稿では疑問分解をサブクエストに組み込んだRAGパイプラインを提案する。補間的な文書を効果的に組み立てる一方で、再ランク付けによってノイズが減少することを示す。再ランク自体は標準的なものであるが、LLMによる質問分解と既製のクロスエンコーダのペアリングは、マルチホップ質問の検索ギャップを橋渡しすることを示す。
論文参考訳（メタデータ） (2025-07-01T01:01:54Z)
ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge [53.18163869901266]
ESGeniusは、環境・社会・ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のためのベンチマークである。 ESGeniusはESGenius-QAとESGenius-Corpusの2つの重要なコンポーネントから構成される。
論文参考訳（メタデータ） (2025-06-02T13:19:09Z)
Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。 RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文参考訳（メタデータ） (2025-04-17T16:46:11Z)
Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文参考訳（メタデータ） (2024-10-20T22:59:34Z)
ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
W-RAGは、下流タスクから弱いトレーニング信号を抽出し、検索者がタスクに最も利益をもたらすパスを優先順位付けするように微調整する手法である。我々は4つの公開可能なOpenQAデータセットの包括的な実験を行い、我々のアプローチが検索とOpenQAのパフォーマンスを向上させることを実証した。
論文参考訳（メタデータ） (2024-08-15T22:34:44Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。 RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文参考訳（メタデータ） (2024-07-19T03:02:51Z)
DIRAS: Efficient LLM Annotation of Document Relevance in Retrieval Augmented Generation [37.823892101215684]
ドメイン固有のクエリは通常、浅いセマンティックな関連性を超えて、関連性のニュアンス定義を必要とする。人間またはGPT-4アノテーションは費用がかかり、全ての(クエリ、ドキュメント)ペアをカバーできない。 DIRAS (Domain-specific Information Retrieval with Scalability) は手動アノテーションのないスキーマである。
論文参考訳（メタデータ） (2024-06-20T10:04:09Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。