論文の概要: STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion
- arxiv url: http://arxiv.org/abs/2601.15860v1
- Date: Thu, 22 Jan 2026 11:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.580656
- Title: STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion
- Title(参考訳): STAR:ヘッダ・アウェア・クラスタリングと適応重み付き融合を用いた意味表表現
- Authors: Shui-Hsiang Hsu, Tsung-Hsiang Chou, Chen-Jui Yu, Yao-Chung Fan,
- Abstract要約: STAR(Semantic Table Representation)はセマンティッククラスタリングと重み付き融合によってセマンティックテーブル表現を改善する軽量フレームワークである。
全てのデータセットにおいて,STARはQGpTよりも連続的に高いリコールを実現していることを示す。
- 参考スコア(独自算出の注目度): 1.483000637348699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table retrieval is the task of retrieving the most relevant tables from large-scale corpora given natural language queries. However, structural and semantic discrepancies between unstructured text and structured tables make embedding alignment particularly challenging. Recent methods such as QGpT attempt to enrich table semantics by generating synthetic queries, yet they still rely on coarse partial-table sampling and simple fusion strategies, which limit semantic diversity and hinder effective query-table alignment. We propose STAR (Semantic Table Representation), a lightweight framework that improves semantic table representation through semantic clustering and weighted fusion. STAR first applies header-aware K-means clustering to group semantically similar rows and selects representative centroid instances to construct a diverse partial table. It then generates cluster-specific synthetic queries to comprehensively cover the table's semantic space. Finally, STAR employs weighted fusion strategies to integrate table and query embeddings, enabling fine-grained semantic alignment. This design enables STAR to capture complementary information from structured and textual sources, improving the expressiveness of table representations. Experiments on five benchmarks show that STAR achieves consistently higher Recall than QGpT on all datasets, demonstrating the effectiveness of semantic clustering and adaptive weighted fusion for robust table representation. Our code is available at https://github.com/adsl135789/STAR.
- Abstract(参考訳): テーブル検索は、自然言語クエリが与えられた大規模コーパスから最も関連性の高いテーブルを検索するタスクである。
しかし、構造化されていないテキストと構造化されたテーブルの間の構造的および意味的な相違は、埋め込みアライメントを特に困難にしている。
QGpTのような最近の手法は、合成クエリを生成してテーブルセマンティクスを豊かにしようとするが、それでも大まかな部分テーブルサンプリングと単純な融合戦略に依存しており、セマンティクスの多様性を制限し、効率的なクエリテーブルアライメントを妨げている。
本稿では,セマンティッククラスタリングと重み付き融合によるセマンティックテーブル表現を改善する軽量フレームワークSTARを提案する。
STARはまず、意味的に類似した行をグループ化するためにヘッダ対応K平均クラスタリングを適用し、代表セントロイドインスタンスを選択して、多様な部分テーブルを構築する。
その後、クラスタ固有の合成クエリを生成して、テーブルの意味空間を包括的にカバーする。
最後に、STARはテーブルとクエリの埋め込みを統合するために重み付けされた融合戦略を採用し、きめ細かいセマンティックアライメントを可能にする。
この設計により、STARは構造化およびテキストソースから補完的な情報をキャプチャし、表表現の表現性を向上させることができる。
5つのベンチマーク実験により、STARはすべてのデータセット上でQGpTよりも一貫して高いリコールを実現し、ロバストテーブル表現のためのセマンティッククラスタリングと適応重み付き融合の有効性を実証した。
私たちのコードはhttps://github.com/adsl135789/STARで利用可能です。
関連論文リスト
- CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval [1.483000637348699]
本稿では,LCM生成によるテーブル検索を支援するトレーニングフレームワークCGPTを紹介する。
CGPTは、QGpTを含む検索ベースラインを一貫して上回り、平均R@1の改善率は16.54パーセントである。
以上の結果から,LLM生成管理によるコントラストトレーニングと組み合わせた意味的ガイド付き部分テーブル構築が,大規模テーブル検索に有効かつスケーラブルなパラダイムを提供することが示された。
論文 参考訳(メタデータ) (2026-01-22T10:58:56Z) - TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - Improving Table Understanding with LLMs and Entity-Oriented Search [24.3302301035859]
大規模言語モデル(LLM)を用いたテーブル理解向上のためのエンティティ指向検索手法を提案する。
このアプローチは、質問とテーブルデータ間の意味的類似性、およびテーブルセル間の暗黙的な関係を効果的に活用する。
テーブルエンティティにフォーカスし、テーブルセルがセマンティックにタイトに束縛されていることを保証する。
論文 参考訳(メタデータ) (2025-08-23T14:02:45Z) - Improving Table Retrieval with Question Generation from Partial Tables [2.2169618382995764]
本稿では,LLMを用いてテーブルの小さな部分に基づいて合成質問を生成する簡易かつ効果的な方法であるQGpTを提案する。
生成された質問は、生成に使用される部分テーブルセグメントに結合され、ユーザクエリとのセマンティックアライメントが強化される。
論文 参考訳(メタデータ) (2025-08-08T09:35:56Z) - Bridging Queries and Tables through Entities in Table Retrieval [70.13748256886288]
エンティティは、テキスト検索の文脈でよく研究されているが、テーブル検索におけるその応用についての研究は、顕著に欠如している。
本稿では、実体表現に基づく相互作用パラダイムを設計し、エンティティ強化トレーニングフレームワークを提案する。
提案するフレームワークはプラグアンドプレイでフレキシブルで,既存のテーブルレトリバーのトレーニングプロセスに統合しやすくする。
論文 参考訳(メタデータ) (2025-04-09T03:16:33Z) - Tailoring Table Retrieval from a Field-aware Hybrid Matching Perspective [70.13748256886288]
表検索はテキスト検索に比べて少ない。
異なるテーブルフィールドは、異なるマッチングの好みを持つ。
テーブル調整ハイブリドマッチングrEtriever(THYME)について紹介する。
論文 参考訳(メタデータ) (2025-03-04T03:57:10Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。