論文の概要: RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking
- arxiv url: http://arxiv.org/abs/2504.01346v4
- Date: Sun, 05 Oct 2025 07:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:09.582315
- Title: RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking
- Title(参考訳): RAG over Tables:階層メモリインデックス、マルチステージ検索、ベンチマーク
- Authors: Jiaru Zou, Dongqi Fu, Sirui Chen, Xinrui He, Zihao Li, Yada Zhu, Jiawei Han, Jingrui He,
- Abstract要約: 現実世界のシナリオでは、純粋なテキスト以外では、かなりの量の知識がテーブルに格納される。
まず、階層型メモリインデックス、多段階検索、グラフ認識プロンプトからなるテーブルコーパス対応RAGフレームワークT-RAGを提案する。
- 参考スコア(独自算出の注目度): 63.253294691180635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) enhances Large Language Models (LLMs) by integrating them with an external knowledge base to improve the answer relevance and accuracy. In real-world scenarios, beyond pure text, a substantial amount of knowledge is stored in tables, and user questions often require retrieving answers that are distributed across multiple tables. Retrieving knowledge from a table corpora (i.e., various individual tables) for a question remains nascent, at least, for (i) how to understand intra- and inter-table knowledge effectively, (ii) how to filter unnecessary tables and how to retrieve the most relevant tables efficiently, (iii) how to prompt LLMs to infer over the retrieval, (iv) how to evaluate the corresponding performance in a realistic setting. Facing the above challenges, in this paper, we first propose a table-corpora-aware RAG framework, named T-RAG, which consists of the hierarchical memory index, multi-stage retrieval, and graph-aware prompting for effective and efficient table knowledge retrieval and inference. Further, we first develop a multi-table question answering benchmark named MultiTableQA, which spans 3 different task types, 57,193 tables, and 23,758 questions in total, and the sources are all from real-world scenarios. Based on MultiTableQA, we did the holistic comparison over table retrieval methods, RAG methods, and table-to-graph representation learning methods, where T-RAG shows the leading accuracy, recall, and running time performance. Also, under T-RAG, we evaluate the inference ability upgrade of different LLMs. Code and Data are available at https://github.com/jiaruzouu/T-RAG
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) を外部知識ベースと統合することで、回答の妥当性と精度を向上させる。
現実世界のシナリオでは、純粋なテキストを超えて、かなりの量の知識がテーブルに格納され、ユーザの質問は複数のテーブルに分散した回答を取得する必要がある。
質問のための表のコーパス(例えば、様々な個別の表)から知識を取得することは、少なくともまだ初期段階である。
一 表内及び表内知識を効果的に理解する方法
(II)不要なテーブルをフィルタリングする方法、最も関係の深いテーブルを効率的に検索する方法。
三 LLM に検索を推し進める方法
(4)現実的な環境で対応するパフォーマンスを評価する方法。
本稿では、まず、階層型メモリインデックス、多段階検索、グラフ認識によるテーブル知識検索と推論を効果的かつ効率的に行うためのテーブルコーパス対応RAGフレームワークT-RAGを提案する。
さらに,3種類のタスクタイプ,57,193のテーブル,23,758の質問にまたがるマルチテーブル質問応答ベンチマークMultiTableQAを開発した。
MultiTableQAに基づいて、テーブル検索法、RAG法、表-グラフ表現学習法を総合的に比較し、T-RAGが先行する精度、リコール、実行時間性能を示した。
また、T-RAGの下では、異なるLLMの推論能力のアップグレードを評価する。
コードとデータはhttps://github.com/jiaruzouu/T-RAGで公開されている。
関連論文リスト
- Plugging Schema Graph into Multi-Table QA: A Human-Guided Framework for Reducing LLM Reliance [8.304761523814564]
本稿では,人為的な関係知識を活用して,スキーマリンクとジョインパスを明示的にエンコードするグラフベースのフレームワークを提案する。
自然言語クエリーが与えられた場合、我々はこのグラフを検索して解釈可能な推論チェーンを構築し、プルーニングとサブパスマージ戦略によって支援する。
標準ベンチマークと現実的な大規模データセットの両方の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2025-06-04T20:21:52Z) - Reasoning-Aware Query-Focused Summarization over Multi-Table Data [1.325953054381901]
大規模言語モデル(LLM)を利用したエンドツーエンド生成フレームワークであるQueryTableSummarizer++を提案する。
本手法では,中間シリアライズステップの必要性を排除し,クエリ関連要約を直接生成する。
ベンチマークデータセットの実験では、QueryTableSummarizer++がBLEU、ROUGE、F1スコアで最先端のベースラインを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-12-12T06:04:31Z) - GraphOTTER: Evolving LLM-based Graph Reasoning for Complex Table Question Answering [19.59852014700167]
複雑なテーブル質問回答は、複雑なレイアウトと柔軟なヘッダロケーションを示す複雑なテーブルに基づいて、特定の質問に対する正確な回答を提供する。
本稿では,正解をピンポイントする推論プロセスを明確に確立するGraphOTTERを提案する。
その後、グラフ上でステップバイステップの推論を行い、各ステップは事前に定義された中間的推論アクションのセットによってガイドされる。
論文 参考訳(メタデータ) (2024-12-02T07:49:23Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - Neural Graph Reasoning: Complex Logical Query Answering Meets Graph
Databases [63.96793270418793]
複雑な論理クエリ応答(CLQA)は、グラフ機械学習の最近登場したタスクである。
ニューラルグラフデータベース(NGDB)の概念を紹介する。
NGDBはNeural Graph StorageとNeural Graph Engineで構成されている。
論文 参考訳(メタデータ) (2023-03-26T04:03:37Z) - End-to-End Table Question Answering via Retrieval-Augmented Generation [19.89730342792824]
本稿では、T-RAGというテーブルQAモデルを紹介し、非パラメトリックな高密度ベクトルインデックスをパラメトリックシーケンス・ツー・シーケンスモデルであるBARTと組み合わせて微調整し、応答トークンを生成する。
自然言語の問題があれば、T-RAGは統合パイプラインを使用してテーブルコーパスを自動で検索し、テーブルセルから正しい回答を直接見つけ出す。
論文 参考訳(メタデータ) (2022-03-30T23:30:16Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。