論文の概要: Pneuma: Leveraging LLMs for Tabular Data Representation and Retrieval in an End-to-End System
- arxiv url: http://arxiv.org/abs/2504.09207v1
- Date: Sat, 12 Apr 2025 13:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 09:00:39.161996
- Title: Pneuma: Leveraging LLMs for Tabular Data Representation and Retrieval in an End-to-End System
- Title(参考訳): Pneuma: エンドツーエンドシステムにおける語彙データ表現と検索のためのLLMの活用
- Authors: Muhammad Imam Luthfi Balaka, David Alexander, Qiming Wang, Yue Gong, Adila Krisnadhi, Raul Castro Fernandez,
- Abstract要約: Pneumaは、表形式のデータを効率的かつ効果的に発見するために設計された検索拡張世代(RAG)システムである。
テーブル表現のために、Pneumaはスキーマと行レベルの情報を保存し、包括的なデータ理解を保証する。
テーブル検索では、PneumaはLLMをフルテキストやベクトル検索といった従来の情報検索技術で強化する。
- 参考スコア(独自算出の注目度): 8.096082871461311
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Finding relevant tables among databases, lakes, and repositories is the first step in extracting value from data. Such a task remains difficult because assessing whether a table is relevant to a problem does not always depend only on its content but also on the context, which is usually tribal knowledge known to the individual or team. While tools like data catalogs and academic data discovery systems target this problem, they rely on keyword search or more complex interfaces, limiting non-technical users' ability to find relevant data. The advent of large language models (LLMs) offers a unique opportunity for users to ask questions directly in natural language, making dataset discovery more intuitive, accessible, and efficient. In this paper, we introduce Pneuma, a retrieval-augmented generation (RAG) system designed to efficiently and effectively discover tabular data. Pneuma leverages large language models (LLMs) for both table representation and table retrieval. For table representation, Pneuma preserves schema and row-level information to ensure comprehensive data understanding. For table retrieval, Pneuma augments LLMs with traditional information retrieval techniques, such as full-text and vector search, harnessing the strengths of both to improve retrieval performance. To evaluate Pneuma, we generate comprehensive benchmarks that simulate table discovery workload on six real-world datasets including enterprise data, scientific databases, warehousing data, and open data. Our results demonstrate that Pneuma outperforms widely used table search systems (such as full-text search and state-of-the-art RAG systems) in accuracy and resource efficiency.
- Abstract(参考訳): データベース、レイク、リポジトリ間で関連するテーブルを見つけることは、データから値を抽出する最初のステップである。
このようなタスクは、テーブルが問題に関係しているかどうかを評価することは、その内容だけでなく、通常は個人やチームによって知られている部族的知識である文脈にも依存するため、依然として難しいままである。
データカタログや学術データ発見システムのようなツールはこの問題を対象としているが、キーワード検索やより複雑なインターフェースに依存しており、非技術者のユーザが関連するデータを見つける能力を制限する。
大規模言語モデル(LLM)の出現は、ユーザーが自然言語で直接質問するユニークな機会を提供し、データセット発見をより直感的で、アクセスしやすく、効率的にする。
本稿では,表型データの検出を効率よく効果的に行うための検索拡張生成システムであるPneumaを紹介する。
Pneumaは、テーブル表現とテーブル検索の両方に、大きな言語モデル(LLM)を利用する。
テーブル表現のために、Pneumaはスキーマと行レベルの情報を保存し、包括的なデータ理解を保証する。
テーブル検索においてPneumaは、フルテキストやベクトル検索といった従来の情報検索技術でLLMを強化し、両者の強みを活用して検索性能を向上させる。
Pneumaを評価するために、企業データ、科学データベース、ウェアハウスデータ、オープンデータを含む6つの実世界のデータセット上でテーブルディスカバリのワークロードをシミュレートする包括的なベンチマークを生成する。
その結果,Pneumaは全文検索や最先端のRAGシステムなど,広く使われている表検索システムよりも精度と資源効率が優れていた。
関連論文リスト
- Bridging Queries and Tables through Entities in Table Retrieval [70.13748256886288]
エンティティは、テキスト検索の文脈でよく研究されているが、テーブル検索におけるその応用についての研究は、顕著に欠如している。
本稿では、実体表現に基づく相互作用パラダイムを設計し、エンティティ強化トレーニングフレームワークを提案する。
提案するフレームワークはプラグアンドプレイでフレキシブルで,既存のテーブルレトリバーのトレーニングプロセスに統合しやすくする。
論文 参考訳(メタデータ) (2025-04-09T03:16:33Z) - GTR: Graph-Table-RAG for Cross-Table Question Answering [53.11230952572134]
テーブルコーパスをヘテロジニアスグラフに再構成するグラフテーブル-テーブル-RAG フレームワーク GTR を提案する。
GTRは、高いデプロイメント効率を維持しながら、より優れたクロステーブル質問応答性能を示し、実際の実用性を示している。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - RoundTable: Leveraging Dynamic Schema and Contextual Autocomplete for Enhanced Query Precision in Tabular Question Answering [11.214912072391108]
現実世界のデータセットは、大きな属性と複雑な値の配列を特徴とすることが多い。
従来の手法ではデータセットのサイズと複雑さをLarge Language Modelsに完全にリレーすることはできません。
入力テーブル上でFTS(Full-Text Search)を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T13:13:06Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Enhancing Knowledge Retrieval with In-Context Learning and Semantic Search through Generative AI [3.9773527114058855]
本稿では,大規模言語モデルの生成能力とベクトルデータベースの高速かつ正確な検索能力を組み合わせた新しい手法を提案する。
開発したGTR(Generative Text Retrieval)は,非構造化データと構造化データの両方に適用可能である。
改良されたモデルであるGenerative Tabular Text Retrieval (GTR-T) は、大規模データベースクエリの効率を実証した。
論文 参考訳(メタデータ) (2024-06-13T23:08:06Z) - OpenTab: Advancing Large Language Models as Open-domain Table Reasoners [38.29047314758911]
OpenTabは、Large Language Models (LLM)を利用したオープンドメインテーブル推論フレームワークである。
OpenTabはオープンドメインとクローズドドメインの両方でベースラインを大幅に上回り、最大21.5%の精度を実現している。
論文 参考訳(メタデータ) (2024-02-22T08:01:01Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。