論文の概要: PIPER: Content-Based Table Search via profiling and LLM-Generated Pseudoqueries
- arxiv url: http://arxiv.org/abs/2605.18199v1
- Date: Mon, 18 May 2026 10:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.403622
- Title: PIPER: Content-Based Table Search via profiling and LLM-Generated Pseudoqueries
- Title(参考訳): PIPER: プロファイリングとLLM生成擬似クエリによるコンテンツベースのテーブル検索
- Authors: Riccardo Terrenzi, Matteo Falconi, Serkan Ayvaz, Pierluigi Plebani,
- Abstract要約: 既存のデータセット検索システムは、主にメタデータに依存しており、しばしば不完全または低品質である。
本稿では,テーブルプロファイルとLLM生成クエリを組み込んだコンテンツ駆動型検索手法PIPERを提案する。
- 参考スコア(独自算出の注目度): 0.6299766708197881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of tabular datasets in data lakes, data spaces, and open data portals makes effective dataset search essential for reuse and analysis. Existing search systems rely mainly on metadata, which is often incomplete or low quality, especially for tables whose meaning depends on both schema and cell values. Recent advances in Large Language Models (LLMs) enable richer, content-based representations of tables. However, prior LLM-based retrieval methods have focused on Table Question Answering, where the goal is to select a single table to answer a question, rather than retrieve and rank relevant datasets. We propose PIPER, a content-driven retrieval method for tabular datasets that uses table profiles and LLM-generated queries embedded for dense retrieval. Designed for dataset search in poor-metadata settings, PIPER outperforms both classical metadata-based baselines and strong TableQA retrieval methods, demonstrating the value of LLM-based content modeling for tabular dataset search.
- Abstract(参考訳): データレイク、データスペース、オープンデータポータルにおけるグラフデータセットの急速な成長は、効果的なデータセット検索を再利用と分析に欠かせないものにしている。
既存の検索システムは、主にメタデータに依存しており、特にスキーマとセル値の両方に依存するテーブルでは、不完全または低品質であることが多い。
大規模言語モデル(LLM)の最近の進歩は、よりリッチでコンテントベースの表表現を可能にする。
しかし、従来のLCMベースの検索手法では、関連するデータセットを検索・ランク付けするのではなく、単一のテーブルを選択して質問に答えることが目的であった。
本稿では,テーブルプロファイルとLLM生成クエリを組込み高密度検索に利用する表型データセットのコンテンツ駆動検索手法であるPIPERを提案する。
PIPERは、メタデータベースのベースラインと強力なTableQA検索方法の両方より優れており、表付きデータセット検索におけるLLMベースのコンテンツモデリングの価値を実証している。
関連論文リスト
- FGTR: Fine-Grained Multi-Table Retrieval via Hierarchical LLM Reasoning [9.827204445321147]
The Fine-Grained Multi-Table Retrieval FGTR is a new search paradigm that using a human-like reasoning strategy。
実験の結果,FGTRは従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2026-03-13T06:28:45Z) - A Hybrid Search for Complex Table Question Answering in Securities Report [0.9430947207126281]
手動による識別を伴わないTQA(Table Question Answering)のためのセル抽出法を提案する。
提案手法は,与えられた質問と個々のセルの類似性を計算し,テーブルヘッダーを推定する。
次に、最も関連する行と列の交点にあるセルの答えとして選択する。
論文 参考訳(メタデータ) (2025-11-12T10:19:27Z) - Keywords are not always the key: A metadata field analysis for natural language search on open data portals [3.974422712382188]
個別のメタデータフィールドが対話型データセット検索の成功にどのように影響するかを検討する。
メタデータフィールド「記述」の既存のコンテンツとLLM生成コンテンツを比較した。
この結果から,データセット記述がユーザの意図と整合する上で重要な役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2025-09-17T22:14:27Z) - Pneuma: Leveraging LLMs for Tabular Data Representation and Retrieval in an End-to-End System [8.096082871461311]
Pneumaは、表形式のデータを効率的かつ効果的に発見するために設計された検索拡張世代(RAG)システムである。
テーブル表現のために、Pneumaはスキーマと行レベルの情報を保存し、包括的なデータ理解を保証する。
テーブル検索では、PneumaはLLMをフルテキストやベクトル検索といった従来の情報検索技術で強化する。
論文 参考訳(メタデータ) (2025-04-12T13:20:50Z) - RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking [63.253294691180635]
現実世界のシナリオでは、純粋なテキスト以外では、かなりの量の知識がテーブルに格納される。
まず、階層型メモリインデックス、多段階検索、グラフ認識プロンプトからなるテーブルコーパス対応RAGフレームワークT-RAGを提案する。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - RoundTable: Leveraging Dynamic Schema and Contextual Autocomplete for Enhanced Query Precision in Tabular Question Answering [11.214912072391108]
現実世界のデータセットは、大きな属性と複雑な値の配列を特徴とすることが多い。
従来の手法ではデータセットのサイズと複雑さをLarge Language Modelsに完全にリレーすることはできません。
入力テーブル上でFTS(Full-Text Search)を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T13:13:06Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。