論文の概要: T$^2$-RAGBench: Text-and-Table Benchmark for Evaluating Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2506.12071v1
- Date: Wed, 04 Jun 2025 15:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.622651
- Title: T$^2$-RAGBench: Text-and-Table Benchmark for Evaluating Retrieval-Augmented Generation
- Title(参考訳): T$^2$-RAGBench:Retrieval-Augmented Generationの評価のためのテキスト・アンド・テイブルベンチマーク
- Authors: Jan Strich, Enes Kutay Isgorur, Maximilian Trescher, Chris Biemann, Martin Semmann,
- Abstract要約: 本稿では,現実の財務データ上でのRAG(Retrieval-Augmented Generation)手法の評価ベンチマークであるT$2$-RAGBenchを紹介する。
Oracleのコンテキスト設定の下で動作する一般的なQAデータセットとは異なり、T$2$-RAGBenchは正しいコンテキストを最初に取得するためにモデルに挑戦する。
- 参考スコア(独自算出の注目度): 13.952610708308027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While most financial documents contain a combination of textual and tabular information, robust Retrieval-Augmented Generation (RAG) systems are essential for effectively accessing and reasoning over such content to perform complex numerical tasks. This paper introduces T$^2$-RAGBench, a benchmark comprising 32,908 question-context-answer triples, designed to evaluate RAG methods on real-world financial data. Unlike typical QA datasets that operate under Oracle-context settings, where the relevant context is explicitly provided, T$^2$-RAGBench challenges models to first retrieve the correct context before conducting numerical reasoning. Existing QA datasets involving text and tables typically contain context-dependent questions, which may yield multiple correct answers depending on the provided context. To address this, we transform these datasets into a context-independent format, enabling reliable RAG evaluation. We conduct a comprehensive evaluation of popular RAG methods. Our analysis identifies Hybrid BM25, a technique that combines dense and sparse vectors, as the most effective approach for text-and-table data. However, results demonstrate that T$^2$-RAGBench remains challenging even for SOTA LLMs and RAG methods. Further ablation studies examine the impact of embedding models and corpus size on retrieval performance. T$^2$-RAGBench provides a realistic and rigorous benchmark for existing RAG methods on text-and-table data. Code and dataset are available online.
- Abstract(参考訳): ほとんどの財務文書にはテキスト情報と表表情報の組み合わせが含まれているが、複雑な数値処理を行うために、そのようなコンテンツを効果的にアクセスし、推論するためには、堅牢な検索・拡張生成システム(RAG)が不可欠である。
本稿では,現実の財務データ上でのRAG手法の評価を目的とした,32,908個の質問文回答三重項からなるベンチマークであるT$^2$-RAGBenchを紹介する。
関連するコンテキストが明示的に提供されるOracleコンテキスト設定の下で運用される一般的なQAデータセットとは異なり、T$^2$-RAGBenchは、数値推論を行う前に最初に正しいコンテキストを取得するようモデルに挑戦する。
テキストとテーブルを含む既存のQAデータセットは、通常、コンテキストに依存した質問を含む。
これを解決するために、これらのデータセットを文脈に依存しないフォーマットに変換し、信頼性の高いRAG評価を可能にする。
一般的なRAG法を包括的に評価する。
本分析では,高密度ベクトルとスパースベクトルを組み合わせたHybrid BM25を,テキスト・アンド・テーブルデータに対する最も効果的なアプローチとして同定する。
しかし, T$^2$-RAGBench は SOTA LLM 法や RAG 法においても困難であることを示す。
さらに,埋め込みモデルとコーパスサイズが検索性能に及ぼす影響について検討した。
T$^2$-RAGBenchは、テキストとテーブルのデータに対する既存のRAGメソッドのリアルで厳密なベンチマークを提供する。
コードとデータセットはオンラインで入手できる。
関連論文リスト
- TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning [3.1480184228320205]
Retrieval-Augmented Generation (RAG) は、オープンドメイン質問応答においてかなりの効果を示した。
既存のRAGアプローチでは、異種文書に適用する場合に限界がある。
本研究では,表データに対するテキスト理解と複雑な操作を統一するフレームワークであるTableRAGを提案する。
また,マルチホップ不均一推論能力を評価するための新しいベンチマークであるHeteQAを開発した。
論文 参考訳(メタデータ) (2025-06-12T06:16:49Z) - mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs [11.861763118322136]
マルチモーダルRAGシステムを評価するためのモジュール型ベンチマークであるmmRAGを紹介する。
我々のベンチマークでは、テキスト、テーブル、知識グラフにまたがる6つの多様な問合せデータセットからのクエリを統合する。
文書関連性を注釈化し、データセット関連性を導出するための標準情報検索手順に従う。
論文 参考訳(メタデータ) (2025-05-16T12:31:29Z) - GeAR: Generation Augmented Retrieval [82.20696567697016]
本稿では,新しい方法であるtextbfGe$nerationを紹介する。
対照的な学習を通じて、グローバルなドキュメントクエリの類似性を改善すると同時に、よく設計されたフュージョンとデコードモジュールを統合する。
検索機として使用する場合、GeARはバイエンコーダよりも計算コストがかかることはない。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - QuIM-RAG: Advancing Retrieval-Augmented Generation with Inverted Question Matching for Enhanced QA Performance [1.433758865948252]
本研究では,RAG(Retrieval-Augmented Generation)システム構築のための新しいアーキテクチャを提案する。
RAGアーキテクチャは、ターゲット文書から応答を生成するために構築される。
本稿では,本システムにおける検索機構の新しいアプローチQuIM-RAGを紹介する。
論文 参考訳(メタデータ) (2025-01-06T01:07:59Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。
本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。
eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-04-21T21:22:28Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - $\text{EFO}_{k}$-CQA: Towards Knowledge Graph Complex Query Answering
beyond Set Operation [36.77373013615789]
本稿では,データ生成,モデルトレーニング,メソッド評価のためのフレームワークを提案する。
実験的な評価のために,データセットとして$textEFO_k$-CQAを構築した。
論文 参考訳(メタデータ) (2023-07-15T13:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。