論文の概要: HyST: LLM-Powered Hybrid Retrieval over Semi-Structured Tabular Data
- arxiv url: http://arxiv.org/abs/2508.18048v1
- Date: Mon, 25 Aug 2025 14:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.805891
- Title: HyST: LLM-Powered Hybrid Retrieval over Semi-Structured Tabular Data
- Title(参考訳): HyST:半構造化語彙データを用いたLLMによるハイブリッド検索
- Authors: Jiyoon Myung, Jihyeon Park, Joohyung Han,
- Abstract要約: HyST(Hybrid search over Semi-structured Tabular data)は、構造化フィルタリングとセマンティック埋め込み検索を組み合わせたハイブリッド検索フレームワークである。
半構造化ベンチマークにおいてHySTがトラジショナルベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 0.4779196219827507
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: User queries in real-world recommendation systems often combine structured constraints (e.g., category, attributes) with unstructured preferences (e.g., product descriptions or reviews). We introduce HyST (Hybrid retrieval over Semi-structured Tabular data), a hybrid retrieval framework that combines LLM-powered structured filtering with semantic embedding search to support complex information needs over semi-structured tabular data. HyST extracts attribute-level constraints from natural language using large language models (LLMs) and applies them as metadata filters, while processing the remaining unstructured query components via embedding-based retrieval. Experiments on a semi-structured benchmark show that HyST consistently outperforms tradtional baselines, highlighting the importance of structured filtering in improving retrieval precision, offering a scalable and accurate solution for real-world user queries.
- Abstract(参考訳): 現実世界のレコメンデーションシステムにおけるユーザクエリは、構造化された制約(例:カテゴリ、属性)と非構造化された好み(例:製品記述やレビュー)を組み合わせることが多い。
HyST(Hybrid search over Semi-structured Tabular data)は,LLMを用いた構造化フィルタとセマンティック埋め込み検索を組み合わせたハイブリッド検索フレームワークである。
HySTは、大きな言語モデル(LLM)を使用して自然言語から属性レベルの制約を抽出し、メタデータフィルタとして適用し、残りの非構造化クエリコンポーネントを埋め込みベースの検索によって処理する。
半構造化ベンチマークの実験によると、HySTはトラジショナルベースラインを一貫して上回り、構造化フィルタリングが検索精度を向上させることの重要性を強調し、現実世界のユーザクエリに対してスケーラブルで正確なソリューションを提供する。
関連論文リスト
- LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - Mixture-of-RAG: Integrating Text and Tables with Large Language Models [5.038576104344948]
不均一文書RAGは、テキストデータと階層データ間の共同検索と推論を必要とする。
階層構造と異種関係を保存する新しい3段階フレームワークであるMixRAGを提案する。
実験の結果、MixRAGは強いテキストのみ、テーブルのみ、ナイーブミキサーベースラインよりもトップ1検索を46%向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-13T13:02:33Z) - RoundTable: Leveraging Dynamic Schema and Contextual Autocomplete for Enhanced Query Precision in Tabular Question Answering [11.214912072391108]
現実世界のデータセットは、大きな属性と複雑な値の配列を特徴とすることが多い。
従来の手法ではデータセットのサイズと複雑さをLarge Language Modelsに完全にリレーすることはできません。
入力テーブル上でFTS(Full-Text Search)を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T13:13:06Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Beyond Extraction: Contextualising Tabular Data for Efficient
Summarisation by Language Models [0.0]
Retrieval-Augmented Generation アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。
本研究では,RAGに基づくシステムにおいて,複雑なテーブルクエリの精度を高めるための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-04T16:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。