論文の概要: TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning
- arxiv url: http://arxiv.org/abs/2506.10380v1
- Date: Thu, 12 Jun 2025 06:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.597311
- Title: TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning
- Title(参考訳): TableRAG: 異種文書推論のための検索拡張生成フレームワーク
- Authors: Xiaohan Yu, Pu Jian, Chong Chen,
- Abstract要約: Retrieval-Augmented Generation (RAG) は、オープンドメイン質問応答においてかなりの効果を示した。
既存のRAGアプローチでは、異種文書に適用する場合に限界がある。
本研究では,表データに対するテキスト理解と複雑な操作を統一するフレームワークであるTableRAGを提案する。
また,マルチホップ不均一推論能力を評価するための新しいベンチマークであるHeteQAを開発した。
- 参考スコア(独自算出の注目度): 3.1480184228320205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has demonstrated considerable effectiveness in open-domain question answering. However, when applied to heterogeneous documents, comprising both textual and tabular components, existing RAG approaches exhibit critical limitations. The prevailing practice of flattening tables and chunking strategies disrupts the intrinsic tabular structure, leads to information loss, and undermines the reasoning capabilities of LLMs in multi-hop, global queries. To address these challenges, we propose TableRAG, an hybrid framework that unifies textual understanding and complex manipulations over tabular data. TableRAG iteratively operates in four steps: context-sensitive query decomposition, text retrieval, SQL programming and execution, and compositional intermediate answer generation. We also develop HeteQA, a novel benchmark designed to evaluate the multi-hop heterogeneous reasoning capabilities. Experimental results demonstrate that TableRAG consistently outperforms existing baselines on both public datasets and our HeteQA, establishing a new state-of-the-art for heterogeneous document question answering. We release TableRAG at https://github.com/yxh-y/TableRAG/tree/main.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、オープンドメイン質問応答においてかなりの効果を示した。
しかし、テキストコンポーネントと表コンポーネントの両方を含む異種文書に適用した場合、既存のRAGアプローチには限界がある。
テーブルのフラット化やチャンキング戦略の一般的な実践は、本質的な表構造を破壊し、情報損失を招き、マルチホップでグローバルなクエリにおけるLLMの推論能力を損なう。
これらの課題に対処するために,テキスト理解と表データの複雑な操作を統一するハイブリッドフレームワークTableRAGを提案する。
TableRAGは、コンテキストに敏感なクエリ分解、テキスト検索、SQLプログラミングと実行、合成中間応答生成の4つのステップで反復的に動作する。
また,マルチホップ不均一推論能力を評価するための新しいベンチマークであるHeteQAを開発した。
実験により、TableRAGは、公開データセットとHeteQAの両方で既存のベースラインを一貫して上回り、異種文書質問応答のための新しい最先端技術を確立した。
TableRAGをhttps://github.com/yxh-y/TableRAG/tree/mainでリリースします。
関連論文リスト
- Respecting Temporal-Causal Consistency: Entity-Event Knowledge Graphs for Retrieval-Augmented Generation [69.45495166424642]
我々は,物語文書における時間的,因果的,文字的整合性を理解するために,頑健で差別的なQAベンチマークを開発する。
次に、バイナリマッピングでリンクされたエンティティとイベントのサブグラフを分離したまま保持するデュアルグラフフレームワークであるEntity-Event RAG(E2RAG)を紹介します。
ChronoQA全体で、我々のアプローチは最先端の非構造化およびKGベースのRAGベースラインよりも優れており、因果一貫性クエリや文字整合性クエリが顕著である。
論文 参考訳(メタデータ) (2025-06-06T10:07:21Z) - HD-RAG: Retrieval-Augmented Generation for Hybrid Documents Containing Text and Hierarchical Tables [2.915799083273604]
本稿では,行と列のテーブル表現を組み込んだ新しいフレームワークであるHD-RAGを紹介する。
我々はDocRAGLibを用いて総合的な実験を行い、HD-RAGは検索精度とQA性能の両方において既存のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2025-04-13T13:02:33Z) - GTR: Graph-Table-RAG for Cross-Table Question Answering [53.11230952572134]
テーブルコーパスをヘテロジニアスグラフに再構成するグラフテーブル-テーブル-RAG フレームワーク GTR を提案する。
GTRは、高いデプロイメント効率を維持しながら、より優れたクロステーブル質問応答性能を示し、実際の実用性を示している。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - SRAG: Structured Retrieval-Augmented Generation for Multi-Entity Question Answering over Wikipedia Graph [10.297615455470133]
MEQA(Multi-entity Question answering)は、大規模言語モデルにおいて重要な課題である。
本稿では、抽出されたエンティティをリレーショナルテーブルに整理する構造化RAGフレームワークを提案する。
ウィキペディアベースのマルチエンタリティQAタスクの実験では、SRAGが最先端の長文LLMを著しく上回っていることが示されている。
論文 参考訳(メタデータ) (2025-03-03T09:37:33Z) - Mixture of Structural-and-Textual Retrieval over Text-rich Graph Knowledge Bases [78.62158923194153]
テキストリッチなグラフ知識ベース(TG-KB)は、テキストおよび構造的知識を提供することで、クエリに応答する上でますます重要になっている。
本研究では,これら2種類の知識を計画・推論・組織化フレームワークを用いて検索するための構造・テキスト検索(MoR)の混合を提案する。
論文 参考訳(メタデータ) (2025-02-27T17:42:52Z) - PathRAG: Pruning Graph-based Retrieval Augmented Generation with Relational Paths [42.01377074786958]
Retrieval-augmented Generation (RAG)は、外部データベースから知識を取得することで、大規模言語モデル(LLM)の応答品質を改善する。
本稿では、インデックス化グラフから重要な関係経路を検索し、これらの経路をテキスト形式に変換してLLMを誘導するPathRAGを提案する。
PathRAGは、6つのデータセットと5つの評価次元で、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-02-18T11:18:55Z) - QuOTE: Question-Oriented Text Embeddings [8.377715521597292]
QuOTE(Question-Oriented Text Embeddings)は、検索強化世代(RAG)システムへの新たな拡張である。
従来のRAGパイプラインとは異なり、QuOTEは、チャンクが潜在的に答えうる仮説的な質問でチャンクを拡張する。
マルチホップ質問応答タスクを含め,QuOTEは検索精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-02-16T03:37:13Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Beyond Extraction: Contextualising Tabular Data for Efficient
Summarisation by Language Models [0.0]
Retrieval-Augmented Generation アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。
本研究では,RAGに基づくシステムにおいて,複雑なテーブルクエリの精度を高めるための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-04T16:16:14Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。