論文の概要: WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos
- arxiv url: http://arxiv.org/abs/2505.16635v2
- Date: Mon, 27 Oct 2025 12:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.315145
- Title: WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos
- Title(参考訳): WikiDBGraph: データベースサイロによる協調学習のためのデータ管理ベンチマークスイート
- Authors: Zhaomin Wu, Ziyang Wang, Bingsheng He,
- Abstract要約: 協調学習(CL)技術により、複数のパーティが生データを共有せずにモデルを共同でトレーニングできる。
現在のCLベンチマークとアルゴリズムは、主に、分離、アライメント、結合可能なデータベースの仮定の下で学習ステップを目標としています。
我々は1700万の重み付きエッジでリンクされた10万の現実世界のリレーショナルデータベースから構築された大規模なデータセットを構築した。
- 参考スコア(独自算出の注目度): 48.88393315169039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relational databases are often fragmented across organizations, creating data silos that hinder distributed data management and mining. Collaborative learning (CL) -- techniques that enable multiple parties to train models jointly without sharing raw data -- offers a principled approach to this challenge. However, existing CL frameworks (e.g., federated and split learning) remain limited in real-world deployments. Current CL benchmarks and algorithms primarily target the learning step under assumptions of isolated, aligned, and joinable databases, and they typically neglect the end-to-end data management pipeline, especially preprocessing steps such as table joins and data alignment. In contrast, our analysis of the real-world corpus WikiDBs shows that databases are interconnected, unaligned, and sometimes unjoinable, exposing a significant gap between CL algorithm design and practical deployment. To close this evaluation gap, we build WikiDBGraph, a large-scale dataset constructed from 100{,}000 real-world relational databases linked by 17 million weighted edges. Each node (database) and edge (relationship) is annotated with 13 and 12 properties, respectively, capturing a hybrid of instance- and feature-level overlap across databases. Experiments on WikiDBGraph demonstrate both the effectiveness and limitations of existing CL methods under realistic conditions, highlighting previously overlooked gaps in managing real-world data silos and pointing to concrete directions for practical deployment of collaborative learning systems.
- Abstract(参考訳): リレーショナルデータベースは、しばしば組織間で断片化され、分散データ管理とマイニングを妨げるデータサイロを生成する。
コラボレーション学習(CL) -- 複数のパーティが生データを共有せずにモデルを共同でトレーニングできる技術 -- は、この課題に対して原則化されたアプローチを提供する。
しかし、既存のCLフレームワーク(例えば、フェデレーションと分割学習)は、現実世界のデプロイメントに限られている。
現在のCLベンチマークとアルゴリズムは、主に、分離、アライメント、結合可能なデータベースの仮定の下での学習ステップを目標としており、特にテーブル結合やデータアライメントといった前処理ステップを、エンドツーエンドのデータ管理パイプラインを無視しているのが一般的である。
対照的に、実世界のウィキDBの分析では、データベースは相互接続され、非整合性があり、時には接続不能であり、CLアルゴリズムの設計と実践的なデプロイメントの間に大きなギャップがあることが示されています。
この評価ギャップを埋めるため,100{,}000の実世界の関係データベースを1700万の重み付きエッジでリンクした大規模データセットであるWikiDBGraphを構築した。
各ノード(データベース)とエッジ(リレーショナル)はそれぞれ13と12のプロパティでアノテートされ、データベース間のインスタンスレベルのオーバーラップと機能レベルのオーバーラップのハイブリッドをキャプチャする。
WikiDBGraphの実験では、現実的な条件下での既存のCLメソッドの有効性と限界を実証し、現実のデータサイロの管理においてこれまで見過ごされていたギャップを強調し、協調学習システムの実践的な展開のための具体的な方向を示す。
関連論文リスト
- Relational Deep Learning: Challenges, Foundations and Next-Generation Architectures [50.46688111973999]
グラフ機械学習は、任意のグラフ構造化データで学習するモデルの能力を大幅に向上させた。
従来の工学的特徴を伴わない'関係エンティティグラフ'のエンドツーエンド表現を可能にする新しい青写真を提案する。
本稿では、大規模マルチテーブル統合や、時間力学と異種データのモデリングの複雑さなど、重要な課題について論じる。
論文 参考訳(メタデータ) (2025-06-19T23:51:38Z) - RelGNN: Composite Message Passing for Relational Deep Learning [56.48834369525997]
RelGNNはリレーショナルデータベースから構築されたグラフのユニークな構造特性を活用するために特別に設計された新しいGNNフレームワークである。
RelGNNは、Relbench(Fey et al., 2024)から30の多様な実世界のタスクで評価され、ほとんどのタスクで最先端のパフォーマンスを実現し、最大25%の改善を実現している。
論文 参考訳(メタデータ) (2025-02-10T18:58:40Z) - Federated Neural Graph Databases [53.03085605769093]
プライバシを保ちながらマルチソースグラフベースのデータの推論を可能にする新しいフレームワークであるFederated Neural Graph Database (FedNGDB)を提案する。
既存の方法とは異なり、FedNGDBは複雑なグラフ構造と関係を扱うことができ、様々な下流タスクに適合する。
論文 参考訳(メタデータ) (2024-02-22T14:57:44Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - GFS: Graph-based Feature Synthesis for Prediction over Relational
Databases [39.975491511390985]
グラフベース特徴合成(GFS)と呼ばれる新しいフレームワークを提案する。
GFSは関係データベースを異種グラフデータベースとして定式化する。
4つの実世界のマルチテーブルリレーショナルデータベースに対する実験では、GFSはリレーショナルデータベース用に設計された従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-04T16:54:40Z) - Learning Representations without Compositional Assumptions [79.12273403390311]
本稿では,特徴集合をグラフノードとして表現し,それらの関係を学習可能なエッジとして表現することで,特徴集合の依存関係を学習するデータ駆動型アプローチを提案する。
また,複数のビューから情報を動的に集約するために,より小さな潜在グラフを学習する新しい階層グラフオートエンコーダLEGATOを導入する。
論文 参考訳(メタデータ) (2023-05-31T10:36:10Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - On Embeddings in Relational Databases [11.52782249184251]
低次元埋め込みを用いた関係データベースにおけるエンティティの分散表現学習の問題に対処する。
近年の埋め込み学習法は,すべてのテーブルの完全結合をリレーショナル化し,知識グラフとして表すことにより,データベースの完全非正規化を考慮に入れたナイーブな手法である。
本稿では,テーブル内の列の基本的なセマンティクスを利用して表現を学習する上で,関係結合と潜時関係を用いて,より優れた方法論を実証する。
論文 参考訳(メタデータ) (2020-05-13T17:21:27Z) - Siamese Graph Neural Networks for Data Integration [11.41207739004894]
本稿では,リレーショナルデータベースなどの構造化データからエンティティをモデリングし,統合するための一般的なアプローチと,ニュース記事からの自由テキストなどの構造化されていない情報源を提案する。
我々のアプローチは、エンティティ間の関係を明示的にモデル化し、活用することにより、利用可能なすべての情報を使用し、できるだけ多くのコンテキストを保存するように設計されています。
我々は,ビジネスエンティティに関するデータ統合作業における手法の評価を行い,グラフベース表現を使用しない他のディープラーニングアプローチと同様に,標準的なルールベースシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-17T21:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。