論文の概要: TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning
- arxiv url: http://arxiv.org/abs/2506.10380v1
- Date: Thu, 12 Jun 2025 06:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.597311
- Title: TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning
- Title(参考訳): TableRAG: 異種文書推論のための検索拡張生成フレームワーク
- Authors: Xiaohan Yu, Pu Jian, Chong Chen,
- Abstract要約: Retrieval-Augmented Generation (RAG) は、オープンドメイン質問応答においてかなりの効果を示した。
既存のRAGアプローチでは、異種文書に適用する場合に限界がある。
本研究では,表データに対するテキスト理解と複雑な操作を統一するフレームワークであるTableRAGを提案する。
また,マルチホップ不均一推論能力を評価するための新しいベンチマークであるHeteQAを開発した。
- 参考スコア(独自算出の注目度): 3.1480184228320205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has demonstrated considerable effectiveness in open-domain question answering. However, when applied to heterogeneous documents, comprising both textual and tabular components, existing RAG approaches exhibit critical limitations. The prevailing practice of flattening tables and chunking strategies disrupts the intrinsic tabular structure, leads to information loss, and undermines the reasoning capabilities of LLMs in multi-hop, global queries. To address these challenges, we propose TableRAG, an hybrid framework that unifies textual understanding and complex manipulations over tabular data. TableRAG iteratively operates in four steps: context-sensitive query decomposition, text retrieval, SQL programming and execution, and compositional intermediate answer generation. We also develop HeteQA, a novel benchmark designed to evaluate the multi-hop heterogeneous reasoning capabilities. Experimental results demonstrate that TableRAG consistently outperforms existing baselines on both public datasets and our HeteQA, establishing a new state-of-the-art for heterogeneous document question answering. We release TableRAG at https://github.com/yxh-y/TableRAG/tree/main.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、オープンドメイン質問応答においてかなりの効果を示した。
しかし、テキストコンポーネントと表コンポーネントの両方を含む異種文書に適用した場合、既存のRAGアプローチには限界がある。
テーブルのフラット化やチャンキング戦略の一般的な実践は、本質的な表構造を破壊し、情報損失を招き、マルチホップでグローバルなクエリにおけるLLMの推論能力を損なう。
これらの課題に対処するために,テキスト理解と表データの複雑な操作を統一するハイブリッドフレームワークTableRAGを提案する。
TableRAGは、コンテキストに敏感なクエリ分解、テキスト検索、SQLプログラミングと実行、合成中間応答生成の4つのステップで反復的に動作する。
また,マルチホップ不均一推論能力を評価するための新しいベンチマークであるHeteQAを開発した。
実験により、TableRAGは、公開データセットとHeteQAの両方で既存のベースラインを一貫して上回り、異種文書質問応答のための新しい最先端技術を確立した。
TableRAGをhttps://github.com/yxh-y/TableRAG/tree/mainでリリースします。
関連論文リスト
- HD-RAG: Retrieval-Augmented Generation for Hybrid Documents Containing Text and Hierarchical Tables [2.915799083273604]
本稿では,行と列のテーブル表現を組み込んだ新しいフレームワークであるHD-RAGを紹介する。
我々はDocRAGLibを用いて総合的な実験を行い、HD-RAGは検索精度とQA性能の両方において既存のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2025-04-13T13:02:33Z) - GTR: Graph-Table-RAG for Cross-Table Question Answering [53.11230952572134]
テーブルコーパスをヘテロジニアスグラフに再構成するグラフテーブル-テーブル-RAG フレームワーク GTR を提案する。
GTRは、高いデプロイメント効率を維持しながら、より優れたクロステーブル質問応答性能を示し、実際の実用性を示している。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - QuOTE: Question-Oriented Text Embeddings [8.377715521597292]
QuOTE(Question-Oriented Text Embeddings)は、検索強化世代(RAG)システムへの新たな拡張である。
従来のRAGパイプラインとは異なり、QuOTEは、チャンクが潜在的に答えうる仮説的な質問でチャンクを拡張する。
マルチホップ質問応答タスクを含め,QuOTEは検索精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-02-16T03:37:13Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Beyond Extraction: Contextualising Tabular Data for Efficient
Summarisation by Language Models [0.0]
Retrieval-Augmented Generation アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。
本研究では,RAGに基づくシステムにおいて,複雑なテーブルクエリの精度を高めるための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-04T16:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。