論文の概要: Insider Knowledge: How Much Can RAG Systems Gain from Evaluation Secrets?
- arxiv url: http://arxiv.org/abs/2601.13227v1
- Date: Mon, 19 Jan 2026 17:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.980673
- Title: Insider Knowledge: How Much Can RAG Systems Gain from Evaluation Secrets?
- Title(参考訳): 内部知識:RAGシステムはどの程度評価秘密から得られるか?
- Authors: Laura Dietz, Bryan Li, Eugene Yang, Dawn Lawrie, William Walden, James Mayfield,
- Abstract要約: 特にNuggetベースのアプローチは、評価フレームワークだけでなく、RAGシステム自体のアーキテクチャにも組み込まれています。
本研究は,プロンプトテンプレートやゴールドナゲットなどの評価要素がリークされたり,予測されたりした場合に,ほぼ完全な評価スコアが得られることを示す。
- 参考スコア(独自算出の注目度): 24.068226474653617
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: RAG systems are increasingly evaluated and optimized using LLM judges, an approach that is rapidly becoming the dominant paradigm for system assessment. Nugget-based approaches in particular are now embedded not only in evaluation frameworks but also in the architectures of RAG systems themselves. While this integration can lead to genuine improvements, it also creates a risk of faulty measurements due to circularity. In this paper, we investigate this risk through comparative experiments with nugget-based RAG systems, including Ginger and Crucible, against strong baselines such as GPT-Researcher. By deliberately modifying Crucible to generate outputs optimized for an LLM judge, we show that near-perfect evaluation scores can be achieved when elements of the evaluation - such as prompt templates or gold nuggets - are leaked or can be predicted. Our results highlight the importance of blind evaluation settings and methodological diversity to guard against mistaking metric overfitting for genuine system progress.
- Abstract(参考訳): RAG システムは LLM の判断で評価・最適化され,システム評価のパラダイムとして急速に普及しつつある。
特にNuggetベースのアプローチは、評価フレームワークだけでなく、RAGシステム自体のアーキテクチャにも組み込まれている。
この統合によって真の改善がもたらされるが、丸みによる誤測定のリスクも生じる。
本稿では, Ginger や Crucible などの Nugget ベースのRAG システムを用いて, GPT-Researcher などの強力なベースラインに対して比較実験を行った。
LLM判定器に最適化された出力を生成するためにCrucibleを意図的に修正することにより、プロンプトテンプレートや金ナゲットなどの評価要素がリークされたり、予測されたりした場合に、ほぼ完璧な評価スコアが得られることを示す。
本研究は,真のシステム進行に適合する計量過度を誤用することを防ぐためのブラインド評価設定と方法論的多様性の重要性を強調した。
関連論文リスト
- Knowledge-Graph Based RAG System Evaluation Framework [27.082302648704708]
大規模言語モデル(LLM)は重要な研究対象となっている。
Retrieval Augmented Generation (RAG)は、生成したコンテンツの信頼性と関連性を大幅に向上させる。
RAGシステムの評価は依然として難しい課題である。
論文 参考訳(メタデータ) (2025-10-02T20:36:21Z) - Towards a rigorous evaluation of RAG systems: the challenge of due diligence [39.577682622066256]
生成的AIの台頭は、医療や金融といったリスクの高い分野に大きな進歩をもたらした。
Retrieval-Augmented Generation (RAG)アーキテクチャは、言語モデル(LLM)と検索エンジンを組み合わせたもので、特に文書コーパスから応答を生成する能力で有名である。
本研究では、投資ファンドのデューディリジェンスに使用されるRAGシステムを評価する。
論文 参考訳(メタデータ) (2025-07-29T12:33:16Z) - The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。
この手法は2003年にTREC Question Answering (QA) Trackのために開発された。
完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文 参考訳(メタデータ) (2025-04-21T12:55:06Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - VERA: Validation and Evaluation of Retrieval-Augmented Systems [5.709401805125129]
VERAは、大規模言語モデル(LLM)からの出力の透明性と信頼性を高めるために設計されたフレームワークである。
VERAが意思決定プロセスを強化し、AIアプリケーションへの信頼を高める方法を示す。
論文 参考訳(メタデータ) (2024-08-16T21:59:59Z) - RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation [61.14660526363607]
本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。
RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。
RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
論文 参考訳(メタデータ) (2024-08-15T10:20:54Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。