論文の概要: Relational Database Distillation: From Structured Tables to Condensed Graph Data
- arxiv url: http://arxiv.org/abs/2510.06980v1
- Date: Wed, 08 Oct 2025 13:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.502985
- Title: Relational Database Distillation: From Structured Tables to Condensed Graph Data
- Title(参考訳): リレーショナルデータベース蒸留:構造化テーブルから凝縮グラフデータへ
- Authors: Xinyi Gao, Jingxi Zhang, Lijian Chen, Tong Chen, Lizhen Cui, Hongzhi Yin,
- Abstract要約: グラフベースモデルに必要な電力を維持しつつ,大規模RDBをコンパクトなヘテロジニアスグラフに蒸留することを目的としている。
さらに、擬似ラベルを用いてカーネルリッジ回帰誘導目標を設計し、蒸留グラフの品質特性を創出する。
- 参考スコア(独自算出の注目度): 48.347717300340435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relational databases (RDBs) underpin the majority of global data management systems, where information is structured into multiple interdependent tables. To effectively use the knowledge within RDBs for predictive tasks, recent advances leverage graph representation learning to capture complex inter-table relations as multi-hop dependencies. Despite achieving state-of-the-art performance, these methods remain hindered by the prohibitive storage overhead and excessive training time, due to the massive scale of the database and the computational burden of intensive message passing across interconnected tables. To alleviate these concerns, we propose and study the problem of Relational Database Distillation (RDD). Specifically, we aim to distill large-scale RDBs into compact heterogeneous graphs while retaining the predictive power (i.e., utility) required for training graph-based models. Multi-modal column information is preserved through node features, and primary-foreign key relations are encoded via heterogeneous edges, thereby maintaining both data fidelity and relational structure. To ensure adaptability across diverse downstream tasks without engaging the traditional, inefficient bi-level distillation framework, we further design a kernel ridge regression-guided objective with pseudo-labels, which produces quality features for the distilled graph. Extensive experiments on multiple real-world RDBs demonstrate that our solution substantially reduces the data size while maintaining competitive performance on classification and regression tasks, creating an effective pathway for scalable learning with RDBs.
- Abstract(参考訳): リレーショナルデータベース(RDB)は、情報を複数の相互依存テーブルに構造化するグローバルデータ管理システムの大部分を支える。
予測タスクにおいてRDB内の知識を効果的に活用するために、近年の進歩はグラフ表現学習を活用し、複雑なテーブル間関係をマルチホップ依存として捉えている。
最先端の性能を達成するにも拘わらず、データベースの大規模化と相互接続されたテーブルを横断する集中メッセージの計算負荷により、これらの手法は禁止的なストレージオーバーヘッドと過剰なトレーニング時間によって妨げられている。
これらの問題を緩和するために,関係データベース蒸留(RDD)の問題を提案し,検討する。
具体的には、大規模RDBをコンパクトな不均一グラフに蒸留し、グラフベースのモデルのトレーニングに必要な予測力(すなわち実用性)を維持することを目的としている。
マルチモーダル列情報はノード特徴を通して保存され、一次外部キー関係は異種エッジを介して符号化されるため、データの忠実度とリレーショナル構造の両方が維持される。
従来の非効率な二段階蒸留フレームワークを使わずに,多様な下流タスクへの適応性を確保するため,疑似ラベルを用いたカーネルリッジ回帰誘導目標を更に設計し,蒸留グラフの品質特性を創出する。
複数の実世界のRDBに関する大規模な実験により、我々のソリューションは、分類および回帰タスクにおける競合性能を維持しながら、データサイズを大幅に削減し、RDBによるスケーラブルな学習のための効果的な経路を創出することを示した。
関連論文リスト
- Synthesize, Retrieve, and Propagate: A Unified Predictive Modeling Framework for Relational Databases [34.57267286892218]
本研究では,一元的依存関係を用いて特徴を合成する一元的予測モデリングフレームワークであるSRPを提案する。
SRPは、リレーショナルデータベース内の一元的および複合的依存関係の両方を完全にキャプチャするように設計されている。
論文 参考訳(メタデータ) (2025-08-10T07:59:41Z) - Rel-HNN: Split Parallel Hypergraph Neural Network for Learning on Relational Databases [3.6423651166048874]
データベースのフラット化は、ディープラーニングモデルに課題をもたらす。
我々はrel-HNNと呼ばれる新しいハイパーグラフベースのフレームワークを提案する。
rel-HNNは,分類タスクと回帰タスクの両方において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-16T18:20:45Z) - Relational Deep Learning: Challenges, Foundations and Next-Generation Architectures [50.46688111973999]
グラフ機械学習は、任意のグラフ構造化データで学習するモデルの能力を大幅に向上させた。
従来の工学的特徴を伴わない'関係エンティティグラフ'のエンドツーエンド表現を可能にする新しい青写真を提案する。
本稿では、大規模マルチテーブル統合や、時間力学と異種データのモデリングの複雑さなど、重要な課題について論じる。
論文 参考訳(メタデータ) (2025-06-19T23:51:38Z) - Joint Relational Database Generation via Graph-Conditional Diffusion Models [44.06390394789874]
プライバシのデータリリースや実際のデータセットといったアプリケーションでは、データベース(RDB)の生成モデルの構築が重要です。
従来はシングルテーブル生成にフォーカスするか、あるいはテーブルの順序を固定しテーブルを逐次生成する自動回帰因子化に依存していた。
我々は、RDB内のすべてのテーブルを秩序を課すことなく、共同でモデリングするという、根本的に異なるアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-22T11:12:56Z) - Boosting Relational Deep Learning with Pretrained Tabular Models [18.34233986830027]
グラフニューラルネットワーク(GNN)は、これらの関係をモデル化することで本質的に魅力的な代替手段を提供する。
我々のフレームワークは、GNNと比較して最大33%のパフォーマンス改善と526タイムの推論スピードアップを実現しています。
論文 参考訳(メタデータ) (2025-04-07T11:19:04Z) - RelGNN: Composite Message Passing for Relational Deep Learning [56.48834369525997]
RelGNNはリレーショナルデータベースから構築されたグラフのユニークな構造特性を活用するために特別に設計された新しいGNNフレームワークである。
RelGNNは、Relbench(Fey et al., 2024)から30の多様な実世界のタスクで評価され、ほとんどのタスクで最先端のパフォーマンスを実現し、最大25%の改善を実現している。
論文 参考訳(メタデータ) (2025-02-10T18:58:40Z) - Learning Federated Neural Graph Databases for Answering Complex Queries from Distributed Knowledge Graphs [53.03085605769093]
我々は、マルチソースグラフデータに対するプライバシ保護推論を促進する先駆的な体系的フレームワークであるFederated Neural Graph DataBase(FedNGDB)を学習することを提案する。
FedNGDBは、フェデレートされた学習を活用して、複数のソースにわたるグラフ表現を協調的に学習し、エンティティ間の関係を強化し、グラフデータの全体的な品質を改善する。
論文 参考訳(メタデータ) (2024-02-22T14:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。