論文の概要: Nexus: Inferring Join Graphs from Metadata Alone via Iterative Low-Rank Matrix Completion
- arxiv url: http://arxiv.org/abs/2602.08186v1
- Date: Mon, 09 Feb 2026 01:11:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.017884
- Title: Nexus: Inferring Join Graphs from Metadata Alone via Iterative Low-Rank Matrix Completion
- Title(参考訳): Nexus: 反復的な低ランク行列補完を通じてメタデータからジョイングラフを推論する
- Authors: Tianji Cong, Yuanyuan Tian, Andreas Mueller, Rathijit Sen, Yeye He, Fotis Psallidas, Shaleen Deep, H. V. Jagadish,
- Abstract要約: メタデータのみを利用できる場合の結合グラフ推論の問題を紹介する。
メタデータのみを使用したエンドツーエンドソリューションであるNexusを提案する。
実験の結果,Nexusは4つのデータセットに対して,既存の手法よりも大きな差があることがわかった。
- 参考スコア(独自算出の注目度): 13.294537614954523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically inferring join relationships is a critical task for effective data discovery, integration, querying and reuse. However, accurately and efficiently identifying these relationships in large and complex schemas can be challenging, especially in enterprise settings where access to data values is constrained. In this paper, we introduce the problem of join graph inference when only metadata is available. We conduct an empirical study on a large number of real-world schemas and observe that join graphs when represented as adjacency matrices exhibit two key properties: high sparsity and low-rank structure. Based on these novel observations, we formulate join graph inference as a low-rank matrix completion problem and propose Nexus, an end-to-end solution using only metadata. To further enhance accuracy, we propose a novel Expectation-Maximization algorithm that alternates between low-rank matrix completion and refining join candidate probabilities by leveraging Large Language Models. Our extensive experiments demonstrate that Nexus outperforms existing methods by a significant margin on four datasets including a real-world production dataset. Additionally, Nexus can operate in a fast mode, providing comparable results with up to 6x speedup, offering a practical and efficient solution for real-world deployments.
- Abstract(参考訳): 結合関係の自動推論は、効果的なデータ発見、統合、クエリ、再利用のための重要なタスクである。
しかし、特にデータ値へのアクセスが制限されたエンタープライズ環境では、これらの関係を大規模で複雑なスキーマで正確に、効率的に識別することは困難である。
本稿では,メタデータのみを利用できる場合の結合グラフ推論の問題を紹介する。
我々は、多数の実世界のスキーマについて実証的研究を行い、隣接行列として表現されたグラフを結合させることで、高空間性と低ランク構造という2つの重要な特性を示す。
これらの新しい観測に基づいて、結合グラフ推論を低ランク行列補完問題として定式化し、メタデータのみを用いたエンドツーエンドソリューションであるNexusを提案する。
精度をさらに高めるために,大規模言語モデルを活用することで,低ランク行列補完と補修結合候補確率を交互に置き換える期待最大化アルゴリズムを提案する。
我々の広範な実験によると、Nexusは実世界の生産データセットを含む4つのデータセットにおいて、既存のメソッドよりも大幅にパフォーマンスが向上している。
さらにNexusは高速モードで動作可能で、最大6倍のスピードアップを実現し、現実のデプロイメントに対して実用的で効率的なソリューションを提供する。
関連論文リスト
- Covariate-assisted graph matching [1.4466802614938332]
そこで我々は,シードと呼ばれるノードの集合の部分的アライメントが知られている2つの新しいグラフマッチング法を提案する。
本手法の有効性は,数値実験および統計学系譜と協調ネットワークのマッチングへの応用を通じて実証された。
論文 参考訳(メタデータ) (2025-12-12T18:12:56Z) - Dual-level Mixup for Graph Few-shot Learning with Fewer Tasks [23.07584018576066]
We propose a SiMple yet effectIve approach for graph few-shot Learning with fEwer task, named SMILE。
メタ学習において利用可能なノードとタスクを同時に強化するために、マルチレベルのミックスアップ戦略を導入し、タスク内とタスク間ミックスアップの両方を包含する。
経験的に言えば、SMILEは、ドメイン内設定とクロスドメイン設定で評価されたすべてのデータセットに対して、他の競合モデルよりも大きなマージンで、一貫して優れています。
論文 参考訳(メタデータ) (2025-02-19T23:59:05Z) - On LLM-Enhanced Mixed-Type Data Imputation with High-Order Message Passing [29.144451092549048]
データ計算の欠如は、データセットの完全性を達成するために、生データセットの欠落した値をインプットすることを目的としている。
1)数値データと分類データしかサポートしていないか,2)不満足な性能を示す。
We propose UnIMP, a Unified IMPutation framework that leverageing LLM and high-order message passing to enhance the imputation of mixed-type data。
論文 参考訳(メタデータ) (2025-01-04T05:05:44Z) - Addressing Shortcomings in Fair Graph Learning Datasets: Towards a New Benchmark [26.233696733521757]
我々は,幅広い要件を満たす合成,半合成,実世界のデータセット群を開発し,導入する。
これらのデータセットは、関連するグラフ構造や、モデルの公正な評価に不可欠なバイアス情報を含むように設計されている。
データセット全体にわたるグラフ学習手法による広範な実験結果から,これらの手法の性能をベンチマークする上での有効性が示された。
論文 参考訳(メタデータ) (2024-03-09T21:33:26Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - Learnable Graph Matching: A Practical Paradigm for Data Association [74.28753343714858]
これらの問題に対処するための一般的な学習可能なグラフマッチング法を提案する。
提案手法は,複数のMOTデータセット上での最先端性能を実現する。
画像マッチングでは,一般的な屋内データセットであるScanNetで最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-03-27T17:39:00Z) - Optimal Propagation for Graph Neural Networks [51.08426265813481]
最適グラフ構造を学習するための二段階最適化手法を提案する。
また、時間的複雑さをさらに軽減するために、低ランク近似モデルについても検討する。
論文 参考訳(メタデータ) (2022-05-06T03:37:00Z) - Matrix Completion with Hierarchical Graph Side Information [39.00971122472004]
ソーシャルグラフやアイテム類似性グラフを副次情報として活用する行列補完問題を考える。
我々は階層的なグラフクラスタリングから始まる普遍的でパラメータフリーで計算効率のよいアルゴリズムを開発した。
我々は、我々の理論的結果を裏付けるために、合成および実世界のデータセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2022-01-02T03:47:41Z) - Effective and Efficient Graph Learning for Multi-view Clustering [173.8313827799077]
マルチビュークラスタリングのための効率的かつ効率的なグラフ学習モデルを提案する。
本手法はテンソルシャッテンp-ノルムの最小化により異なるビューのグラフ間のビュー類似性を利用する。
提案アルゴリズムは時間経済であり,安定した結果を得るとともに,データサイズによく対応している。
論文 参考訳(メタデータ) (2021-08-15T13:14:28Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。