論文の概要: Controlled Retrieval-augmented Context Evaluation for Long-form RAG
- arxiv url: http://arxiv.org/abs/2506.20051v1
- Date: Tue, 24 Jun 2025 23:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.559919
- Title: Controlled Retrieval-augmented Context Evaluation for Long-form RAG
- Title(参考訳): 長期RAGにおける検索強化文脈評価の制御
- Authors: Jia-Huei Ju, Suzan Verberne, Maarten de Rijke, Andrew Yates,
- Abstract要約: Retrieval-augmented Generation (RAG)は、外部知識ソースから取得したコンテキストを組み込むことで、大規模言語モデルを強化する。
我々は、レポート生成のような長期RAGタスクにおいて、包括的な検索強化コンテキストを提供することが重要であると論じる。
本稿では,検索拡張コンテキストを直接評価するフレームワークであるCRUXを紹介する。
- 参考スコア(独自算出の注目度): 58.14561461943611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) enhances large language models by incorporating context retrieved from external knowledge sources. While the effectiveness of the retrieval module is typically evaluated with relevance-based ranking metrics, such metrics may be insufficient to reflect the retrieval's impact on the final RAG result, especially in long-form generation scenarios. We argue that providing a comprehensive retrieval-augmented context is important for long-form RAG tasks like report generation and propose metrics for assessing the context independent of generation. We introduce CRUX, a \textbf{C}ontrolled \textbf{R}etrieval-a\textbf{U}gmented conte\textbf{X}t evaluation framework designed to directly assess retrieval-augmented contexts. This framework uses human-written summaries to control the information scope of knowledge, enabling us to measure how well the context covers information essential for long-form generation. CRUX uses question-based evaluation to assess RAG's retrieval in a fine-grained manner. Empirical results show that CRUX offers more reflective and diagnostic evaluation. Our findings also reveal substantial room for improvement in current retrieval methods, pointing to promising directions for advancing RAG's retrieval. Our data and code are publicly available to support and advance future research on retrieval.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、外部知識ソースから取得したコンテキストを組み込むことで、大規模言語モデルを強化する。
検索モジュールの有効性は一般に関連性に基づくランキングの指標で評価されるが、このような指標は検索が最終的なRAG結果、特に長期生成シナリオに与える影響を反映するには不十分である。
我々は、レポート生成のような長期RAGタスクにおいて、包括的な検索強化コンテキストを提供することが重要であると論じ、生成に依存しないコンテキストを評価するためのメトリクスを提案する。
CRUX, a \textbf{C}ontrolled \textbf{R}etrieval-a\textbf{U}gmented conte\textbf{X}t evaluation framework を導入する。
このフレームワークは,人間の記述した要約を用いて知識の情報範囲を制御し,そのコンテキストが長文生成に必要な情報をどのようにカバーするかを計測する。
CRUXは質問に基づく評価を用いて、RAGの検索をきめ細かい方法で評価する。
経験的結果は、CRUXがより反射的および診断的評価を提供することを示している。
また,RAGの検索を推し進める上で有望な方向性を示すため,現在の検索方法の改善の余地も明らかとなった。
我々のデータとコードは、検索に関する将来の研究を支援し、前進させるために公開されています。
関連論文リスト
- mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs [11.861763118322136]
マルチモーダルRAGシステムを評価するためのモジュール型ベンチマークであるmmRAGを紹介する。
我々のベンチマークでは、テキスト、テーブル、知識グラフにまたがる6つの多様な問合せデータセットからのクエリを統合する。
文書関連性を注釈化し、データセット関連性を導出するための標準情報検索手順に従う。
論文 参考訳(メタデータ) (2025-05-16T12:31:29Z) - MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation [8.950307082012763]
大規模言語モデル(LLM)の生成能力向上に有効な手法として,検索拡張生成(RAG)が注目されている。
本稿では,RAG評価に特化して設計された質問応答データセットであるMIRAGEについて述べる。
MIRAGEは、37,800エントリの検索プールにマッピングされた7,560のキュレートされたインスタンスで構成され、検索と生成の両方のタスクの効率的かつ正確な評価を可能にする。
論文 参考訳(メタデータ) (2025-04-23T23:05:46Z) - Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey [29.186229489968564]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) と外部情報検索を統合し、自然言語処理に革命をもたらした。
RAGシステムの評価は、検索と生成コンポーネントを組み合わせたハイブリッドアーキテクチャのため、ユニークな課題を示す。
論文 参考訳(メタデータ) (2025-04-21T06:39:47Z) - SePer: Measure Retrieval Utility Through The Lens Of Semantic Perplexity Reduction [20.6787276745193]
本稿では、RAGフレームワーク内の情報ゲインのレンズを通して、検索品質を測定する自動評価手法を提案する。
検索の利便性を,検索後の意味的難易度を低減する程度で定量化する。
論文 参考訳(メタデータ) (2025-03-03T12:37:34Z) - Is Relevance Propagated from Retriever to Generator in RAG? [21.82171240511567]
RAGは外部知識を組み込むためのフレームワークであり、通常はコレクションから取得した文書の集合の形式である。
我々は、トポロジに関連のある文書からなるRAGコンテキストが下流の性能向上につながるかどうかを実証的に検討する。
論文 参考訳(メタデータ) (2025-02-20T20:21:46Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。