論文の概要: The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models
- arxiv url: http://arxiv.org/abs/2504.15068v1
- Date: Mon, 21 Apr 2025 12:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 16:35:12.130187
- Title: The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたファクト抽出とRAG評価の自動化
- Authors: Ronak Pradeep, Nandan Thakur, Shivani Upadhyay, Daniel Campos, Nick Craswell, Jimmy Lin,
- Abstract要約: 本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。
この手法は2003年にTREC Question Answering (QA) Trackのために開発された。
完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
- 参考スコア(独自算出の注目度): 53.12387628636912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have significantly enhanced the capabilities of information access systems, especially with retrieval-augmented generation (RAG). Nevertheless, the evaluation of RAG systems remains a barrier to continued progress, a challenge we tackle in this work by proposing an automatic evaluation framework that is validated against human annotations. We believe that the nugget evaluation methodology provides a solid foundation for evaluating RAG systems. This approach, originally developed for the TREC Question Answering (QA) Track in 2003, evaluates systems based on atomic facts that should be present in good answers. Our efforts focus on "refactoring" this methodology, where we describe the AutoNuggetizer framework that specifically applies LLMs to both automatically create nuggets and automatically assign nuggets to system answers. In the context of the TREC 2024 RAG Track, we calibrate a fully automatic approach against strategies where nuggets are created manually or semi-manually by human assessors and then assigned manually to system answers. Based on results from a community-wide evaluation, we observe strong agreement at the run level between scores derived from fully automatic nugget evaluation and human-based variants. The agreement is stronger when individual framework components such as nugget assignment are automated independently. This suggests that our evaluation framework provides tradeoffs between effort and quality that can be used to guide the development of future RAG systems. However, further research is necessary to refine our approach, particularly in establishing robust per-topic agreement to diagnose system failures effectively.
- Abstract(参考訳): 大規模言語モデル (LLM) は情報アクセスシステムの能力を大幅に向上させており、特に検索強化世代 (RAG) では顕著である。
しかしながら、RAGシステムの評価は引き続き進歩の障壁であり、人間のアノテーションに対して検証された自動評価フレームワークを提案することで、本研究に挑戦する。
我々は,このナゲット評価手法がRAGシステム評価の基盤となると信じている。
このアプローチは、2003年にTREC Question Answering (QA) Trackのために開発されたもので、良い答えに現れるべき原子的な事実に基づくシステムを評価する。
そこでは、自動でナゲットを作成し、システム回答にナゲットを自動的に割り当てるのにLLMを適用するAutoNuggetizerフレームワークについて述べています。
TREC 2024 RAG Trackの文脈では、人間の評価者によって手動または半手動でナゲットが作成され、システム回答に手動で割り当てられる戦略に対して、完全に自動的なアプローチを校正する。
コミュニティ全体の評価結果に基づいて,完全自動ナゲット評価から得られたスコアと人為的変異とのランニングレベルでの強い一致を観察する。
nuggetの割り当てのような個々のフレームワークコンポーネントが独立して自動化される場合、合意はより強くなります。
このことから,我々の評価フレームワークは,今後のRAGシステム開発を導くのに使用できる,労力と品質のトレードオフを提供すると考えられる。
しかし、特にシステム障害を効果的に診断するための堅牢なトピックごとの合意を確立するためには、我々のアプローチを洗練するためにさらなる研究が必要である。
関連論文リスト
- Chatbot Arena Meets Nuggets: Towards Explanations and Diagnostics in the Evaluation of LLM Responses [45.2769075498271]
当社のAutoNuggetizerフレームワークを使用して,LMArenaが提供する約7Kの検索アリーナバトルからのデータを分析する。
その結果,ナゲットスコアとヒトの嗜好との間に有意な相関が認められた。
論文 参考訳(メタデータ) (2025-04-28T17:24:36Z) - Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets [0.0]
近年,RAG(Retrieval-Augmented Generation)が著しく進歩している。
RAGの複雑さは、体系的な評価と品質向上に重大な課題をもたらす。
本研究は,63の学術論文を体系的にレビューし,最新のRAG評価手法を概観する。
論文 参考訳(メタデータ) (2025-04-28T08:22:19Z) - Conversational Gold: Evaluating Personalized Conversational Search System using Gold Nuggets [8.734527090842139]
本稿では,RAGシステムによって生成された応答の検索効率と関連性を評価するための新しいリソースを提案する。
我々のデータセットは、TREC iKAT 2024コレクションに拡張され、17の会話と20,575の関連パスアセスメントを含む。
論文 参考訳(メタデータ) (2025-03-12T23:44:10Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - Initial Nugget Evaluation Results for the TREC 2024 RAG Track with the AutoNuggetizer Framework [53.12387628636912]
本報告では、TREC 2024 Retrieval-Augmented Generation (RAG) Trackの部分的な結果について概説する。
我々は、情報アクセスの継続的な進歩の障壁としてRAG評価を特定した。
論文 参考訳(メタデータ) (2024-11-14T17:25:43Z) - Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation [0.4857223913212445]
自動質問生成システムによって生成される質問に対する評価プロセスを自動化する新しいシステムMIRRORを提案する。
その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,人間の評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性のスコアが向上した。
論文 参考訳(メタデータ) (2024-10-16T12:24:42Z) - RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation [61.14660526363607]
本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。
RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。
RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
論文 参考訳(メタデータ) (2024-08-15T10:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。