論文の概要: CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval
- arxiv url: http://arxiv.org/abs/2601.15849v1
- Date: Thu, 22 Jan 2026 10:58:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.578772
- Title: CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval
- Title(参考訳): CGPT:LCMによるテーブル検索のためのクラスタ型部分テーブル
- Authors: Tsung-Hsiang Chou, Chen-Jui Yu, Shui-Hsiang Hsu, Yao-Chung Fan,
- Abstract要約: 本稿では,LCM生成によるテーブル検索を支援するトレーニングフレームワークCGPTを紹介する。
CGPTは、QGpTを含む検索ベースラインを一貫して上回り、平均R@1の改善率は16.54パーセントである。
以上の結果から,LLM生成管理によるコントラストトレーニングと組み合わせた意味的ガイド付き部分テーブル構築が,大規模テーブル検索に有効かつスケーラブルなパラダイムを提供することが示された。
- 参考スコア(独自算出の注目度): 1.483000637348699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose embedding models have demonstrated strong performance in text retrieval but remain suboptimal for table retrieval, where highly structured content leads to semantic compression and query-table mismatch. Recent LLM-based retrieval augmentation methods mitigate this issue by generating synthetic queries, yet they often rely on heuristic partial-table selection and seldom leverage these synthetic queries as supervision to improve the embedding model. We introduce CGPT, a training framework that enhances table retrieval through LLM-generated supervision. CGPT constructs semantically diverse partial tables by clustering table instances using K-means and sampling across clusters to broaden semantic coverage. An LLM then generates synthetic queries for these partial tables, which are used in hard-negative contrastive fine-tuning to refine the embedding model. Experiments across four public benchmarks (MimoTable, OTTQA, FetaQA, and E2E-WTQ) show that CGPT consistently outperforms retrieval baselines, including QGpT, with an average R@1 improvement of 16.54 percent. In a unified multi-domain corpus setting, CGPT further demonstrates strong cross-domain generalization and remains effective even when using smaller LLMs for synthetic query generation. These results indicate that semantically guided partial-table construction, combined with contrastive training from LLM-generated supervision, provides an effective and scalable paradigm for large-scale table retrieval. Our code is available at https://github.com/yumeow0122/CGPT.
- Abstract(参考訳): 汎用埋め込みモデルは、テキスト検索において強力な性能を示したが、高度に構造化されたコンテンツがセマンティック圧縮やクエリテーブルのミスマッチに繋がるテーブル検索には、依然として最適である。
LLMに基づく最近の検索強化手法は、合成クエリを生成することでこの問題を軽減するが、しばしばヒューリスティックな部分テーブル選択に頼り、埋め込みモデルを改善するためにこれらの合成クエリを活用することは滅多にない。
本稿では,LCM生成によるテーブル検索を支援するトレーニングフレームワークCGPTを紹介する。
CGPTは、K平均を用いてテーブルインスタンスをクラスタリングし、クラスタをまたいでサンプリングすることでセマンティックな部分テーブルを構築し、セマンティックカバレッジを広げる。
LLMは、これらの部分テーブルに対する合成クエリを生成し、これは強負のコントラスト微調整で埋め込みモデルを洗練するために使用される。
4つの公開ベンチマーク(MimoTable、OTTQA、FetaQA、E2E-WTQ)での実験では、CGPTはQGpTを含む検索ベースラインを一貫して上回り、平均R@1の改善は16.54パーセントである。
統一されたマルチドメインコーパス設定では、CGPTはさらに強力なクロスドメインの一般化を示し、より小さなLCMを用いて合成クエリ生成しても有効である。
これらの結果から, 意味的指導による部分テーブル構築とLLM生成管理からの対照的なトレーニングが組み合わさって, 大規模テーブル検索に効果的かつスケーラブルなパラダイムを提供することが示された。
私たちのコードはhttps://github.com/yumeow0122/CGPTで利用可能です。
関連論文リスト
- STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion [1.483000637348699]
STAR(Semantic Table Representation)はセマンティッククラスタリングと重み付き融合によってセマンティックテーブル表現を改善する軽量フレームワークである。
全てのデータセットにおいて,STARはQGpTよりも連続的に高いリコールを実現していることを示す。
論文 参考訳(メタデータ) (2026-01-22T11:08:46Z) - CORE-T: COherent REtrieval of Tables for Text-to-SQL [91.76918495375384]
CORE-Tはスケーラブルでトレーニング不要なフレームワークで、テーブルに目的のメタデータを付加し、軽量なテーブル互換キャッシュをプリコンプリートする。
バード、スパイダー、MMQAを越えて、CORE-Tはテーブル選択F1を最大22.7ポイント改善し、最大42%のテーブルを検索する。
論文 参考訳(メタデータ) (2026-01-19T14:51:23Z) - Hint-Augmented Re-ranking: Efficient Product Search using LLM-Based Query Decomposition [20.966359103135762]
LLMは,eコマースクエリにおいて最下位の意図を明らかにすることができることを示す。
提案手法では,クエリを検索と同時に生成した属性値ヒントに分解する。
本手法はMAPにおける検索効率を10.9ポイント改善し,ベースライン上のMRRにおいて5.9ポイントのランク付けを行う。
論文 参考訳(メタデータ) (2025-11-17T23:53:25Z) - A Hybrid Search for Complex Table Question Answering in Securities Report [0.9430947207126281]
手動による識別を伴わないTQA(Table Question Answering)のためのセル抽出法を提案する。
提案手法は,与えられた質問と個々のセルの類似性を計算し,テーブルヘッダーを推定する。
次に、最も関連する行と列の交点にあるセルの答えとして選択する。
論文 参考訳(メタデータ) (2025-11-12T10:19:27Z) - REaR: Retrieve, Expand and Refine for Effective Multitable Retrieval [46.38349148493421]
REAR(Retrieve, Expand and Refine)は、効率的な高忠実なマルチテーブル検索のための3段階のフレームワークである。
Rearはクエリ整列テーブルを検索し、構造的に結合可能なテーブルで拡張し、ノイズや弱い関係のある候補を抽出することでそれらを洗練する。
Rearはレトリバー非依存であり、複雑なテーブルQAデータセット上の高密度/スパースレトリバーを一貫して改善する。
論文 参考訳(メタデータ) (2025-11-02T05:01:04Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - HyST: LLM-Powered Hybrid Retrieval over Semi-Structured Tabular Data [0.4779196219827507]
HyST(Hybrid search over Semi-structured Tabular data)は、構造化フィルタリングとセマンティック埋め込み検索を組み合わせたハイブリッド検索フレームワークである。
半構造化ベンチマークにおいてHySTがトラジショナルベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-08-25T14:06:27Z) - Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models [52.94091440130039]
表推論(TR)は、半構造化データに対する構造化推論を必要とする。
小型言語モデル(SLM)は、大きなLM(LLM、例えばGPT-4o)と比較して限られた能力を持つ。
実行可能プログラムを生成することで、テキストベースTR(T-TR)の鍵となる制限を回避するプログラムベースTR(P-TR)を提案する。
4つのTRベンチマークの実験により、Table-r1は全てのSLMベースの手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-06-06T14:52:19Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。