論文の概要: TabRAG: Tabular Document Retrieval via Structured Language Representations
- arxiv url: http://arxiv.org/abs/2511.06582v1
- Date: Mon, 10 Nov 2025 00:05:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.008553
- Title: TabRAG: Tabular Document Retrieval via Structured Language Representations
- Title(参考訳): TabRAG: 構造化言語表現による語彙文書検索
- Authors: Jacob Si, Mike Qu, Michelle Lee, Yingzhen Li,
- Abstract要約: Retrieval-Augmented Generation (RAG)のデータを取り込むには、ターゲットコーパスに直接埋め込みモデルを微調整するか、または埋め込みモデルエンコーディングのための文書を解析する必要がある。
本稿では,構造化言語表現によるテーブル重文書の処理を目的とした解析に基づくRAGパイプラインであるTabRAGを提案する。
- 参考スコア(独自算出の注目度): 12.83985785007887
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Ingesting data for Retrieval-Augmented Generation (RAG) involves either fine-tuning the embedding model directly on the target corpus or parsing documents for embedding model encoding. The former, while accurate, incurs high computational hardware requirements, while the latter suffers from suboptimal performance when extracting tabular data. In this work, we address the latter by presenting TabRAG, a parsing-based RAG pipeline designed to tackle table-heavy documents via structured language representations. TabRAG outperforms existing popular parsing-based methods for generation and retrieval. Code is available at https://github.com/jacobyhsi/TabRAG.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)のデータを取り込むには、ターゲットコーパスに直接埋め込みモデルを微調整するか、または埋め込みモデルエンコーディングのための文書を解析する必要がある。
前者は正確ではあるが高い計算ハードウェア要求を生じさせ、後者は表データ抽出時の最適性能に悩まされる。
本研究では,構造化言語表現によるテーブル重文書の処理を目的とした解析ベースのRAGパイプラインであるTabRAGを提示することにより,後者に対処する。
TabRAGは、既存のパースベースのメソッドで生成と検索に優れています。
コードはhttps://github.com/jacobyhsi/TabRAG.comで入手できる。
関連論文リスト
- TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning [7.706148486477738]
Retrieval-Augmented Generation (RAG) は、オープンドメイン質問応答においてかなりの効果を示した。
既存のRAGアプローチでは、異種文書に適用する場合に限界がある。
論文 参考訳(メタデータ) (2025-06-12T06:16:49Z) - Mixture-of-RAG: Integrating Text and Tables with Large Language Models [5.038576104344948]
不均一文書RAGは、テキストデータと階層データ間の共同検索と推論を必要とする。
階層構造と異種関係を保存する新しい3段階フレームワークであるMixRAGを提案する。
実験の結果、MixRAGは強いテキストのみ、テーブルのみ、ナイーブミキサーベースラインよりもトップ1検索を46%向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-13T13:02:33Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Beyond Extraction: Contextualising Tabular Data for Efficient
Summarisation by Language Models [0.0]
Retrieval-Augmented Generation アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。
本研究では,RAGに基づくシステムにおいて,複雑なテーブルクエリの精度を高めるための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-04T16:16:14Z) - TabGenie: A Toolkit for Table-to-Text Generation [2.580765958706854]
TabGenieは、研究者がさまざまなデータ-テキスト生成データセットを探索、前処理、分析できるツールキットである。
コマンドライン処理ツールと、統合されたデータセットの読み込みと処理のためのPythonバインディングを備えている。
論文 参考訳(メタデータ) (2023-02-27T22:05:46Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。