論文の概要: CReSt: A Comprehensive Benchmark for Retrieval-Augmented Generation with Complex Reasoning over Structured Documents
- arxiv url: http://arxiv.org/abs/2505.17503v1
- Date: Fri, 23 May 2025 05:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.850361
- Title: CReSt: A Comprehensive Benchmark for Retrieval-Augmented Generation with Complex Reasoning over Structured Documents
- Title(参考訳): CReSt: 構造化文書に対する複雑な推論を伴う検索拡張生成のための総合ベンチマーク
- Authors: Minsoo Khang, Sangjun Park, Teakgyu Hong, Dawoon Jung,
- Abstract要約: 大規模言語モデル(LLM)は近年大きく進歩しているが、実用的検索・拡張生成(RAG)シナリオにおけるそれらの能力の評価は依然として困難である。
本稿では,CreSt(構造化文書に対する複雑な推論を伴う検索拡張生成のための総合ベンチマーク)を提案する。
CreStは、構造化文書に対する複雑な推論を必要とする実用的なRAGシナリオをキャプチャするために設計された、英語と韓国語で2,245の人手による注釈付き例で構成されている。
- 参考スコア(独自算出の注目度): 6.359764486371197
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have made substantial progress in recent years, yet evaluating their capabilities in practical Retrieval-Augmented Generation (RAG) scenarios remains challenging. In practical applications, LLMs must demonstrate complex reasoning, refuse to answer appropriately, provide precise citations, and effectively understand document layout. These capabilities are crucial for advanced task handling, uncertainty awareness, maintaining reliability, and structural understanding. While some of the prior works address these aspects individually, there is a need for a unified framework that evaluates them collectively in practical RAG scenarios. To address this, we present CReSt (A Comprehensive Benchmark for Retrieval-Augmented Generation with Complex Reasoning over Structured Documents), a benchmark designed to assess these key dimensions holistically. CReSt comprises 2,245 human-annotated examples in English and Korean, designed to capture practical RAG scenarios that require complex reasoning over structured documents. It also introduces a tailored evaluation methodology to comprehensively assess model performance in these critical areas. Our evaluation shows that even advanced LLMs struggle to perform consistently across these dimensions, underscoring key areas for improvement. We release CReSt to support further research and the development of more robust RAG systems. The dataset and code are available at: https://github.com/UpstageAI/CReSt.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年大きく進歩しているが、実用的検索・拡張生成(RAG)シナリオにおけるそれらの能力の評価は依然として困難である。
LLMは複雑な推論を実証し、適切な回答を拒み、正確な引用を提供し、文書レイアウトを効果的に理解しなければならない。
これらの機能は、高度なタスクハンドリング、不確実性認識、信頼性の維持、構造的理解に不可欠である。
以前の研究のいくつかはこれらの側面を個別に扱うが、実践的なRAGシナリオでそれらをまとめて評価する統一されたフレームワークが必要である。
そこで本研究では,CreSt(構造化文書に対する複雑な推論を伴う検索拡張生成のための総合ベンチマーク)を提案する。
CreStは、構造化文書に対する複雑な推論を必要とする実用的なRAGシナリオをキャプチャするために設計された、英語と韓国語で2,245の人手による注釈付き例で構成されている。
また、これらの重要な領域におけるモデルパフォーマンスを包括的に評価するための調整された評価手法も導入している。
評価の結果,先進的なLCMでさえ,これらの領域で一貫した性能の維持に苦慮し,改善の鍵となる領域を強調できた。
我々は、さらなる研究とより堅牢なRAGシステムの開発を支援するために、CReStをリリースする。
データセットとコードは、https://github.com/UpstageAI/CReSt.comで入手できる。
関連論文リスト
- Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey [29.186229489968564]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) と外部情報検索を統合し、自然言語処理に革命をもたらした。
RAGシステムの評価は、検索と生成コンポーネントを組み合わせたハイブリッドアーキテクチャのため、ユニークな課題を示す。
論文 参考訳(メタデータ) (2025-04-21T06:39:47Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - IRSC: A Zero-shot Evaluation Benchmark for Information Retrieval through Semantic Comprehension in Retrieval-Augmented Generation Scenarios [14.336896748878921]
本稿では,多言語RAGタスクにおける埋め込みモデルの性能評価のためのIRSCベンチマークを提案する。
このベンチマークには、クエリ検索、タイトル検索、パラグラフ検索、キーワード検索、要約検索の5つのタスクが含まれている。
1)IRSCベンチマーク,2)SSCIとRCCIメトリクス,3)埋め込みモデルの言語間制限に関する洞察などです。
論文 参考訳(メタデータ) (2024-09-24T05:39:53Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。