論文の概要: Snoopy: Effective and Efficient Semantic Join Discovery via Proxy Columns
- arxiv url: http://arxiv.org/abs/2502.16813v1
- Date: Mon, 24 Feb 2025 03:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:52:51.186376
- Title: Snoopy: Effective and Efficient Semantic Join Discovery via Proxy Columns
- Title(参考訳): Snoopy: プロキシカラムによる効率的かつ効率的なセマンティックジョイントディスカバリ
- Authors: Yuxiang Guo, Yuren Mao, Zhonghao Hu, Lu Chen, Yunjun Gao,
- Abstract要約: 本稿では,コラムレベルのセマンティック結合発見フレームワークであるSnoopyを提案する。
4つの実世界のデータセットの実験では、SnoopyがSOTAカラムレベルのメソッドをRecall@25で16%、NDCG@25で10%上回っている。
- 参考スコア(独自算出の注目度): 26.053055662905283
- License:
- Abstract: Semantic join discovery, which aims to find columns in a table repository with high semantic joinabilities to a query column, is crucial for dataset discovery. Existing methods can be divided into two categories: cell-level methods and column-level methods. However, neither of them ensures both effectiveness and efficiency simultaneously. Cell-level methods, which compute the joinability by counting cell matches between columns, enjoy ideal effectiveness but suffer poor efficiency. In contrast, column-level methods, which determine joinability only by computing the similarity of column embeddings, enjoy proper efficiency but suffer poor effectiveness due to the issues occurring in their column embeddings: (i) semantics-joinability-gap, (ii) size limit, and (iii) permutation sensitivity. To address these issues, this paper proposes to compute column embeddings via proxy columns; furthermore, a novel column-level semantic join discovery framework, Snoopy, is presented, leveraging proxy-column-based embeddings to bridge effectiveness and efficiency. Specifically, the proposed column embeddings are derived from the implicit column-to-proxy-column relationships, which are captured by the lightweight approximate-graph-matching-based column projection.To acquire good proxy columns for guiding the column projection, we introduce a rank-aware contrastive learning paradigm. Extensive experiments on four real-world datasets demonstrate that Snoopy outperforms SOTA column-level methods by 16% in Recall@25 and 10% in NDCG@25, and achieves superior efficiency--being at least 5 orders of magnitude faster than cell-level solutions, and 3.5x faster than existing column-level methods.
- Abstract(参考訳): クエリ列に対するセマンティック結合性の高いテーブルリポジトリで列を見つけることを目的としたセマンティック結合ディスカバリは、データセット発見に不可欠である。
既存の方法は、セルレベルメソッドとカラムレベルメソッドの2つのカテゴリに分けられる。
しかし、どちらも有効性と効率性の両方を同時に保証しない。
セルレベルの手法は、列間のセルマッチングを数えて結合性を計算し、理想的な効果を享受するが、効率が悪くなる。
対照的に、列埋め込みの類似性を計算することによってのみ結合性を決定する列レベルの手法は、適切な効率を享受するが、列埋め込みで発生する問題により、有効性が低下する。
(i)意味-結合性-ギャップ
(二)サイズ制限、及び
(三)置換感度
これらの問題に対処するため,本論文では,列レベルのセマンティック結合探索フレームワークであるSnoopyを提案する。
具体的には、列の埋め込みは、軽量な近似グラフマッチングベースカラムプロジェクションによってキャプチャされる暗黙の列-プロキシ-カラム関係から導出され、カラムプロジェクションを導くための優れたプロキシカラムを取得するために、ランク対応のコントラスト学習パラダイムを導入する。
4つの実世界のデータセットに対する大規模な実験により、Snoopyは、Recall@25で16%、NDCG@25で10%のSOTAカラムレベルのメソッドより優れており、セルレベルのソリューションよりも少なくとも5桁高速で、既存のカラムレベルのメソッドよりも3.5倍高速である。
関連論文リスト
- Gem: Gaussian Mixture Model Embeddings for Numerical Feature Distributions [2.6536517304571636]
本稿では,列から数値分布をベースとした埋め込みを生成するGem (Gaussian Mixed Model Embeddings) 法を提案する。
我々は,分布,統計,文脈の3つの数値データ特性に対する埋め込みを生成する。
Gemと、数値のみと数値+コンテキストタスクのベースラインメソッドを比較し、Gemが4つのベンチマークデータセットのベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-10-09T23:40:58Z) - Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-Encoders [77.84801537608651]
クエリ-イムペアを共同で符号化することで類似性を計算するクロスエンコーダ(CE)モデルは、クエリ-イム関連性を推定する埋め込みベースモデル(デュアルエンコーダ)よりも優れている。
本稿では,潜時クエリとアイテム埋め込みを効率的に計算してCEスコアを近似し,CE類似度を近似したk-NN探索を行うスパース行列分解法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:34Z) - A Reinforcement-Learning-Based Multiple-Column Selection Strategy for
Column Generation [33.03891490706789]
列生成は大規模線形プログラミング問題の解決において最も成功した手法の1つである。
本稿では, 強化学習に基づく複数カラム選択戦略を提案する。
本手法は,カットストック問題とグラフカラー化問題という2つの問題に対して評価する。
論文 参考訳(メタデータ) (2023-12-21T11:35:10Z) - Fair Column Subset Selection [6.004035936737586]
行列列を2つの群に分割した設定を考え,その目的は2つの群の最大誤差再構成を最小限に抑える列の部分集合を選択することである。
特定のシナリオでは、各グループごとに列を別々に選ぶことは避けられないため、期待される列数を2倍にする。
フェアセッティングのための決定論的レバレッジスコアサンプリング戦略を提案し、2つのグループが存在する場合、最小サイズのカラムサブセットのサンプリングがNPハードとなることを示す。
論文 参考訳(メタデータ) (2023-06-07T15:00:38Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - DeepJoin: Joinable Table Discovery with Pre-trained Language Models [10.639106014582756]
既存のアプローチは、統一されたビューを作成するためのテーブルを組み合わせる最も一般的な方法である、等結合をターゲットにしている。
Deepjoinは、正確で効率的な結合可能なテーブルディスカバリのためのディープラーニングモデルである。
Deepjoinは、専門家のラベルで評価した場合、セマンティック結合の正確なソリューションよりもはるかに正確です。
論文 参考訳(メタデータ) (2022-12-15T02:40:57Z) - ECO-TR: Efficient Correspondences Finding Via Coarse-to-Fine Refinement [80.94378602238432]
粗大な処理で対応性を見出すことにより、ECO-TR(Correspondence Efficient Transformer)と呼ばれる効率的な構造を提案する。
これを実現するために、複数の変圧器ブロックは段階的に連結され、予測された座標を徐々に洗練する。
種々のスパースタスクと密マッチングタスクの実験は、既存の最先端技術に対する効率性と有効性の両方において、我々の手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-09-25T13:05:33Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Two-way Spectrum Pursuit for CUR Decomposition and Its Application in
Joint Column/Row Subset Selection [9.649210683629127]
本稿では,列列選択と行サブセット選択の同時選択の問題に対処する。
実際の列/行のサブセットを選択することで、列/行の最も構造的な情報をキャプチャするための反復的なアプローチが提案されている。
認知無線ネットワークにおける通信路とセンサ選択へのTWSPの適用を実証する。
論文 参考訳(メタデータ) (2021-06-13T13:16:15Z) - Conjoined Dirichlet Process [63.89763375457853]
我々はディリクレ過程に基づく新しい非パラメトリック確率的ビクラスタリング法を開発し、列と列の双方に強い共起を持つビクラスタを同定する。
本手法はテキストマイニングと遺伝子発現解析の2つの異なる応用に適用し,既存の手法に比べて多くの設定でビクラスタ抽出を改善することを示す。
論文 参考訳(メタデータ) (2020-02-08T19:41:23Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。