論文の概要: HyperJoin: LLM-augmented Hypergraph Link Prediction for Joinable Table Discovery
- arxiv url: http://arxiv.org/abs/2601.01015v1
- Date: Sat, 03 Jan 2026 00:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.943305
- Title: HyperJoin: LLM-augmented Hypergraph Link Prediction for Joinable Table Discovery
- Title(参考訳): HyperJoin: 結合可能なテーブルディスカバリのためのLLM拡張ハイパーグラフリンク予測
- Authors: Shiyuan Liu, Jianwei Wang, Xuemin Lin, Lu Qin, Wenjie Zhang, Ying Zhang,
- Abstract要約: 本稿では,結合テーブル探索のための大規模言語モデル (LLM) 拡張ハイパーグラフフレームワークを提案する。
具体的には、まずテーブル内ハイパーエッジとLLM拡張テーブル間ハイパーエッジの両方を用いてテーブルをモデル化するハイパーグラフを構築する。
そして、カラムとハイパーエッジを渡る双方向メッセージを通して、表現力のある列表現を学習する階層的相互作用ネットワークであるHINを設計する。
- 参考スコア(独自算出の注目度): 27.204701078044252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a pivotal task in data lake management, joinable table discovery has attracted widespread interest. While existing language model-based methods achieve remarkable performance by combining offline column representation learning with online ranking, their design insufficiently accounts for the underlying structural interactions: (1) offline, they directly model tables into isolated or pairwise columns, thereby struggling to capture the rich inter-table and intra-table structural information; and (2) online, they rank candidate columns based solely on query-candidate similarity, ignoring the mutual interactions among the candidates, leading to incoherent result sets. To address these limitations, we propose HyperJoin, a large language model (LLM)-augmented Hypergraph framework for Joinable table discovery. Specifically, we first construct a hypergraph to model tables using both the intra-table hyperedges and the LLM-augmented inter-table hyperedges. Consequently, the task of joinable table discovery is formulated as link prediction on this constructed hypergraph. We then design HIN, a Hierarchical Interaction Network that learns expressive column representations through bidirectional message passing over columns and hyperedges. To strengthen coherence and internal consistency in the result columns, we cast online ranking as a coherence-aware top-k column selection problem. We then introduce a reranking module that leverages a maximum spanning tree algorithm to prune noisy connections and maximize coherence. Experiments demonstrate the superiority of HyperJoin, achieving average improvements of 21.4% (Precision@15) and 17.2% (Recall@15) over the best baseline.
- Abstract(参考訳): データレイク管理における重要なタスクとして、結合可能なテーブル発見が広く関心を集めている。
既存の言語モデルに基づく手法は,オフラインの列表現学習とオンラインランキングを組み合わせることで優れた性能を発揮するが,その設計は,(1)オフライン,(2)テーブル間およびテーブル内構造情報の収集に苦慮し,(2)クエリ・候補類似性のみに基づいて候補列をランク付けし,両者の相互相互作用を無視し,非一貫性な結果セットを導出する,といった構造的相互作用を十分に考慮していない。
これらの制約に対処するため,大言語モデル(LLM)で拡張したHypergraphフレームワークであるHyperJoinを提案する。
具体的には、まずテーブル内ハイパーエッジとLLM拡張テーブル間ハイパーエッジの両方を用いてテーブルをモデル化するハイパーグラフを構築する。
これにより、この構築したハイパーグラフ上でのリンク予測として、結合可能なテーブル探索のタスクが定式化される。
そして、カラムとハイパーエッジを渡る双方向メッセージを通して、表現力のある列表現を学習する階層的相互作用ネットワークであるHINを設計する。
結果列のコヒーレンスと内部整合性を高めるために,オンラインランキングをコヒーレンス対応のトップk列選択問題として位置づけた。
次に、最大分散木アルゴリズムを利用してノイズの多い接続を創り出し、コヒーレンスを最大化するリグレードモジュールを導入する。
HyperJoinは21.4%(Precision@15)と17.2%(Recall@15)の平均的な改善を実現している。
関連論文リスト
- Plugging Schema Graph into Multi-Table QA: A Human-Guided Framework for Reducing LLM Reliance [8.83042313837811]
本稿では,人為的な関係知識を活用して,スキーマリンクとジョインパスを明示的にエンコードするグラフベースのフレームワークを提案する。
自然言語クエリが与えられた場合,提案手法は解析可能な推論チェーンを構築するためにグラフを検索し,プルーニングとサブパスマージ戦略によって支援する。
標準ベンチマークと現実的な大規模データセットの両方の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2025-06-04T20:21:52Z) - RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking [63.253294691180635]
現実世界のシナリオでは、純粋なテキスト以外では、かなりの量の知識がテーブルに格納される。
まず、階層型メモリインデックス、多段階検索、グラフ認識プロンプトからなるテーブルコーパス対応RAGフレームワークT-RAGを提案する。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - Joint Entity and Relation Extraction with Span Pruning and Hypergraph
Neural Networks [58.43972540643903]
PLマーカ(最先端マーカーベースピプレリンモデル)上に構築されたEREのためのHyperGraphニューラルネットワーク(hgnn$)を提案する。
エラーの伝播を軽減するため,NERモジュールからのエンティティ識別とラベル付けの負担をモデルのジョイントモジュールに転送するために,ハイリコールプルーナー機構を用いる。
EREタスクに広く使用されている3つのベンチマークの実験は、以前の最先端のPLマーカーよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-10-26T08:36:39Z) - HYTREL: Hypergraph-enhanced Tabular Data Representation Learning [36.731257438472035]
HYTRELは、行/列の置換不変性と、表データの3つのより構造的な特性をキャプチャする言語モデルである。
HYTRELは、最小限の事前学習を伴う4つの下流タスクにおいて、他の競争ベースラインを一貫して上回ることを示す。
我々の定性的分析は、HYTRELがテーブル構造を同化して、セル、行、列、テーブル全体の堅牢な表現を生成することができることを示した。
論文 参考訳(メタデータ) (2023-07-14T05:41:22Z) - A Dataset for Hyper-Relational Extraction and a Cube-Filling Approach [59.89749342550104]
本稿では,テキストからより具体的で完全な事実を抽出するハイパーリレーショナル抽出の課題を提案する。
既存のモデルは、3つの実体間の相互作用を考えるモデルを必要とするため、ハイパーリレーショナル抽出を行うことはできない。
テーブル充填手法に着想を得た立方体充填モデルであるCubeREを提案する。
論文 参考訳(メタデータ) (2022-11-18T03:51:28Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。