論文の概要: WikiDBGraph: Large-Scale Database Graph of Wikidata for Collaborative Learning
- arxiv url: http://arxiv.org/abs/2505.16635v1
- Date: Thu, 22 May 2025 13:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.303688
- Title: WikiDBGraph: Large-Scale Database Graph of Wikidata for Collaborative Learning
- Title(参考訳): WikiDBGraph:コラボレーション学習のためのWikidataの大規模データベースグラフ
- Authors: Zhaomin Wu, Ziyang Wang, Bingsheng He,
- Abstract要約: WikiDBGraphはWikiDataから10万の現実世界データベースの大規模グラフである。
インスタンスオーバーラップされたデータベースとフィーチャーオーバーラップされたデータベースの両方を識別する。
新たに同定されたデータベースの実験により、協調学習が優れたパフォーマンスをもたらすことが確認された。
- 参考スコア(独自算出の注目度): 33.80292133537436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data, ubiquitous and rich in informational value, is an increasing focus for deep representation learning, yet progress is hindered by studies centered on single tables or isolated databases, which limits model capabilities due to data scale. While collaborative learning approaches such as federated learning, transfer learning, split learning, and tabular foundation models aim to learn from multiple correlated databases, they are challenged by a scarcity of real-world interconnected tabular resources. Current data lakes and corpora largely consist of isolated databases lacking defined inter-database correlations. To overcome this, we introduce WikiDBGraph, a large-scale graph of 100,000 real-world tabular databases from WikiData, interconnected by 17 million edges and characterized by 13 node and 12 edge properties derived from its database schema and data distribution. WikiDBGraph's weighted edges identify both instance- and feature-overlapped databases. Experiments on these newly identified databases confirm that collaborative learning yields superior performance, thereby offering considerable promise for structured foundation model training while also exposing key challenges and future directions for learning from interconnected tabular data.
- Abstract(参考訳): タブラルデータは、ユビキタスで情報量に富み、深層表現学習の焦点となっているが、データスケールによるモデル機能を制限する単一のテーブルや独立したデータベースを中心とした研究によって、進歩は妨げられている。
連携学習、伝達学習、分割学習、表層基礎モデルといった協調学習アプローチは、複数の相関データベースから学習することを目的としているが、現実の相互接続された表層資源の不足に悩まされている。
現在のデータレイクとコーパスは、主にデータベース間の相関が定義されていない独立したデータベースで構成されている。
これを解決するために,WikiDBGraphはWikiDataから10万の現実世界の表型データベースを大規模にグラフ化し,1700万のエッジを相互接続し,データベーススキーマとデータ分布から導出した13のノードと12のエッジ特性を特徴付ける。
WikiDBGraphの重み付けエッジは、インスタンスオーバーラップされたデータベースとフィーチャーオーバーラップされたデータベースの両方を識別する。
これらの新たに同定されたデータベースの実験により、協調学習が優れたパフォーマンスをもたらすことが確認され、構造化基礎モデルのトレーニングに相当な保証を提供するとともに、相互接続された表データから学習するための重要な課題と今後の方向性を明らかにする。
関連論文リスト
- Federated Neural Graph Databases [53.03085605769093]
プライバシを保ちながらマルチソースグラフベースのデータの推論を可能にする新しいフレームワークであるFederated Neural Graph Database (FedNGDB)を提案する。
既存の方法とは異なり、FedNGDBは複雑なグラフ構造と関係を扱うことができ、様々な下流タスクに適合する。
論文 参考訳(メタデータ) (2024-02-22T14:57:44Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - GFS: Graph-based Feature Synthesis for Prediction over Relational
Databases [39.975491511390985]
グラフベース特徴合成(GFS)と呼ばれる新しいフレームワークを提案する。
GFSは関係データベースを異種グラフデータベースとして定式化する。
4つの実世界のマルチテーブルリレーショナルデータベースに対する実験では、GFSはリレーショナルデータベース用に設計された従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-04T16:54:40Z) - Learning Representations without Compositional Assumptions [79.12273403390311]
本稿では,特徴集合をグラフノードとして表現し,それらの関係を学習可能なエッジとして表現することで,特徴集合の依存関係を学習するデータ駆動型アプローチを提案する。
また,複数のビューから情報を動的に集約するために,より小さな潜在グラフを学習する新しい階層グラフオートエンコーダLEGATOを導入する。
論文 参考訳(メタデータ) (2023-05-31T10:36:10Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - On Embeddings in Relational Databases [11.52782249184251]
低次元埋め込みを用いた関係データベースにおけるエンティティの分散表現学習の問題に対処する。
近年の埋め込み学習法は,すべてのテーブルの完全結合をリレーショナル化し,知識グラフとして表すことにより,データベースの完全非正規化を考慮に入れたナイーブな手法である。
本稿では,テーブル内の列の基本的なセマンティクスを利用して表現を学習する上で,関係結合と潜時関係を用いて,より優れた方法論を実証する。
論文 参考訳(メタデータ) (2020-05-13T17:21:27Z) - Siamese Graph Neural Networks for Data Integration [11.41207739004894]
本稿では,リレーショナルデータベースなどの構造化データからエンティティをモデリングし,統合するための一般的なアプローチと,ニュース記事からの自由テキストなどの構造化されていない情報源を提案する。
我々のアプローチは、エンティティ間の関係を明示的にモデル化し、活用することにより、利用可能なすべての情報を使用し、できるだけ多くのコンテキストを保存するように設計されています。
我々は,ビジネスエンティティに関するデータ統合作業における手法の評価を行い,グラフベース表現を使用しない他のディープラーニングアプローチと同様に,標準的なルールベースシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-17T21:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。