論文の概要: PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models
- arxiv url: http://arxiv.org/abs/2602.04029v1
- Date: Tue, 03 Feb 2026 21:35:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.281684
- Title: PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models
- Title(参考訳): PluRel: リレーショナルファンデーションモデルのスケーリング法則を解放するSynthetic Data
- Authors: Vignesh Kothapalli, Rishabh Ranjan, Valter Hudovernik, Vijay Prakash Dwivedi, Johannes Hoffart, Carlos Guestrin, Jure Leskovec,
- Abstract要約: マルチタブラルリレーショナルデータベースをスクラッチから合成するフレームワークであるPluelを紹介する。
ステップバイステップの方法では,(1)有向グラフのスキーマ,(2)二部グラフのテーブル間一次外部キー接続,(3)条件因果機構によるテーブル内の特徴分布をモデル化する。
- 参考スコア(独自算出の注目度): 51.42043158297229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relational Foundation Models (RFMs) facilitate data-driven decision-making by learning from complex multi-table databases. However, the diverse relational databases needed to train such models are rarely public due to privacy constraints. While there are methods to generate synthetic tabular data of arbitrary size, incorporating schema structure and primary--foreign key connectivity for multi-table generation remains challenging. Here we introduce PluRel, a framework to synthesize multi-tabular relational databases from scratch. In a step-by-step fashion, PluRel models (1) schemas with directed graphs, (2) inter-table primary-foreign key connectivity with bipartite graphs, and, (3) feature distributions in tables via conditional causal mechanisms. The design space across these stages supports the synthesis of a wide range of diverse databases, while being computationally lightweight. Using PluRel, we observe for the first time that (1) RFM pretraining loss exhibits power-law scaling with the number of synthetic databases and total pretraining tokens, (2) scaling the number of synthetic databases improves generalization to real databases, and (3) synthetic pretraining yields strong base models for continued pretraining on real databases. Overall, our framework and results position synthetic data scaling as a promising paradigm for RFMs.
- Abstract(参考訳): リレーショナルファンデーションモデル(RFM)は、複雑なマルチテーブルデータベースから学習することで、データ駆動による意思決定を促進する。
しかし、そのようなモデルをトレーニングするために必要な多種多様なリレーショナルデータベースは、プライバシー上の制約のため、公開されることは滅多にない。
任意のサイズの合成表データを生成する方法はあるが、スキーマ構造と外部キー接続を組み込んだマルチテーブル生成は依然として困難である。
ここではPluRelを紹介します。PluRelはマルチタブラリデータベースをスクラッチから合成するフレームワークです。
ステップバイステップのPluRelモデルでは,(1)有向グラフのスキーマ,(2)二部グラフのテーブル間一次外部キー接続,(3)条件付き因果メカニズムによるテーブル内の特徴分布をモデル化する。
これらの段階にわたる設計空間は、計算的に軽量でありながら、幅広い多様なデータベースの合成をサポートする。
PluRel を用いて,(1) RFM 事前学習損失は,合成データベース数および総事前学習トークン数によるゆるいスケーリングを示し,(2) 合成データベース数のスケーリングにより実データベースへの一般化が向上し,(3) 合成事前学習が実データベース上で継続事前訓練を行うための強力なベースモデルが得られることを初めて観察した。
全体として、我々のフレームワークと結果は、合成データのスケーリングをRCMにとって有望なパラダイムとして位置づけている。
関連論文リスト
- Mitra: Mixed Synthetic Priors for Enhancing Tabular Foundation Models [85.64873567417396]
実世界のデータに対して,その多様性,特異性,および性能のために選択された合成前駆体の硬化した混合物をトレーニングしたTFMであるMitraを紹介する。
Mitraは、TabPFNv2やTabICLのような最先端のTFMを、分類と回帰のベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-24T07:15:06Z) - Synthesize, Retrieve, and Propagate: A Unified Predictive Modeling Framework for Relational Databases [34.57267286892218]
本研究では,一元的依存関係を用いて特徴を合成する一元的予測モデリングフレームワークであるSRPを提案する。
SRPは、リレーショナルデータベース内の一元的および複合的依存関係の両方を完全にキャプチャするように設計されている。
論文 参考訳(メタデータ) (2025-08-10T07:59:41Z) - Generating Synthetic Relational Tabular Data via Structural Causal Models [0.0]
本研究では,テーブル間の因果関係を含むリアルな合成関係データを生成する新しいフレームワークを開発する。
実験により,本フレームワークは実世界のシナリオを模倣した複雑なテーブル間依存関係を持つ関係データセットを構築することができることを確認した。
論文 参考訳(メタデータ) (2025-07-04T12:27:23Z) - Relational Deep Learning: Challenges, Foundations and Next-Generation Architectures [50.46688111973999]
グラフ機械学習は、任意のグラフ構造化データで学習するモデルの能力を大幅に向上させた。
従来の工学的特徴を伴わない'関係エンティティグラフ'のエンドツーエンド表現を可能にする新しい青写真を提案する。
本稿では、大規模マルチテーブル統合や、時間力学と異種データのモデリングの複雑さなど、重要な課題について論じる。
論文 参考訳(メタデータ) (2025-06-19T23:51:38Z) - RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。
RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-31T21:01:02Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - GFS: Graph-based Feature Synthesis for Prediction over Relational
Databases [39.975491511390985]
グラフベース特徴合成(GFS)と呼ばれる新しいフレームワークを提案する。
GFSは関係データベースを異種グラフデータベースとして定式化する。
4つの実世界のマルチテーブルリレーショナルデータベースに対する実験では、GFSはリレーショナルデータベース用に設計された従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-04T16:54:40Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。