論文の概要: No Need to Train Your RDB Foundation Model
- arxiv url: http://arxiv.org/abs/2602.13697v1
- Date: Sat, 14 Feb 2026 09:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.349718
- Title: No Need to Train Your RDB Foundation Model
- Title(参考訳): RDBファウンデーションモデルをトレーニングする必要はない
- Authors: Linjie Xu, Yanlin Zhang, Quan Gan, Minjie Wang, David Wipf,
- Abstract要約: 我々は、既存のシングルテーブルICL基盤モデルとシームレスにペアリングできるRDBエンコーダのファミリーを提示する。
実用的な観点から、エンコーダステージを実装するためにスケーラブルなSQLプリミティブを開発し、簡単に使えるオープンソースのRDBファウンデーションモデルを作成します。
- 参考スコア(独自算出の注目度): 21.996337463952255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relational databases (RDBs) contain vast amounts of heterogeneous tabular information that can be exploited for predictive modeling purposes. But since the space of potential targets is vast across enterprise settings, how can we \textit{avoid retraining} a new model each time we wish to predict a new quantity of interest? Foundation models based on in-context learning (ICL) offer a convenient option, but so far are largely restricted to single-table operability. In generalizing to multiple interrelated tables, it is essential to compress variably-sized RDB neighborhoods into fixed-length ICL samples for consumption by the decoder. However, the details here are critical: unlike existing supervised learning RDB pipelines, we provide theoretical and empirical evidence that ICL-specific compression should be constrained \emph{within} high-dimensional RDB columns where all entities share units and roles, not \textit{across} columns where the relevance of heterogeneous data types cannot possibly be determined without label information. Conditioned on this restriction, we then demonstrate that encoder expressiveness is actually not compromised by excluding trainable parameters. Hence we arrive at a principled family of RDB encoders that can be seamlessly paired with already-existing single-table ICL foundation models, whereby no training or fine-tuning is required. From a practical standpoint, we develop scalable SQL primitives to implement the encoder stage, resulting in an easy-to-use open-source RDB foundation model\footnote{\label{foot: RDBLearn_learn} https://github.com/HKUSHXLab/rdblearn} capable of robust performance on unseen datasets out of the box.
- Abstract(参考訳): リレーショナルデータベース(RDB)は、予測モデリングの目的のために利用できる膨大な量の異種表情報を含んでいる。
しかし、潜在的なターゲットの空間はエンタープライズ設定にまたがっているため、新しい関心事を予測しようとするたびに、どうやって新しいモデルを再トレーニングできるのだろうか?
インコンテキスト学習(ICL)に基づく基礎モデルは便利なオプションを提供するが、今のところはシングルテーブル操作に限られている。
複数の相互関係テーブルに一般化するためには、可変サイズのRDB近傍を固定長のICLサンプルに圧縮し、デコーダで消費することが不可欠である。
既存の教師付き学習RDBパイプラインとは異なり、ICL固有の圧縮は、すべてのエンティティが単位と役割を共有する高次元RDB列に制約されるべきであるという理論的および実証的な証拠を提供する。
この制限を条件に、エンコーダ表現性は実際にトレーニング可能なパラメータを除外することによって損なわれないことを示す。
したがって、既存のシングルテーブルICLファンデーションモデルとシームレスにペアリングできるRDBエンコーダの原則ファミリにたどり着き、トレーニングや微調整は不要になります。
実用的な観点から、エンコーダステージを実装するためのスケーラブルなSQLプリミティブを開発し、その結果、簡単に使えるオープンソースのRDBファンデーションモデルである\footnote{\label{foot: RDBLearn_learn} https://github.com/HKUSHXLab/rdblearn} が、ボックスから見つからないデータセットで堅牢なパフォーマンスを実現する。
関連論文リスト
- PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models [51.42043158297229]
マルチタブラルリレーショナルデータベースをスクラッチから合成するフレームワークであるPluelを紹介する。
ステップバイステップの方法では,(1)有向グラフのスキーマ,(2)二部グラフのテーブル間一次外部キー接続,(3)条件因果機構によるテーブル内の特徴分布をモデル化する。
論文 参考訳(メタデータ) (2026-02-03T21:35:18Z) - Generalization Can Emerge in Tabular Foundation Models From a Single Table [38.07740881271672]
簡単な自己教師型事前学習は、単体の実テーブル上で、異種ベンチマーク間で驚くほど強力な転送を実現できることを示す。
次に、ほとんどのTFMが共有する事前学習手順に接続し、データセットから構築できるEmphtaskの数と品質が、下流のパフォーマンスの鍵であることを示します。
論文 参考訳(メタデータ) (2025-11-12T19:12:40Z) - Relational Database Distillation: From Structured Tables to Condensed Graph Data [48.347717300340435]
グラフベースモデルに必要な電力を維持しつつ,大規模RDBをコンパクトなヘテロジニアスグラフに蒸留することを目的としている。
さらに、擬似ラベルを用いてカーネルリッジ回帰誘導目標を設計し、蒸留グラフの品質特性を創出する。
論文 参考訳(メタデータ) (2025-10-08T13:05:31Z) - TabINR: An Implicit Neural Representation Framework for Tabular Data Imputation [0.6407815281667869]
本稿では,テーブルをニューラルネットワークとしてモデル化する自動デコーダベースのImplicit Neural RepresentationフレームワークであるTabINRを紹介する。
我々は、現実世界の12のデータセットと複数の欠落メカニズムにまたがって、我々のフレームワークを評価した。
論文 参考訳(メタデータ) (2025-10-01T17:24:35Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - DecoyDB: A Dataset for Graph Contrastive Learning in Protein-Ligand Binding Affinity Prediction [10.248499818896693]
タンパク質-リガンド複合体の結合親和性を予測することは、薬物発見において重要な役割を担っている。
広く使われているPDBbindデータセットは20K未満のラベル付き複合体を持つ。
自己教師付きグラフコントラスト学習のための大規模構造認識データセットであるDecoyDBを提案する。
論文 参考訳(メタデータ) (2025-07-08T20:02:53Z) - Joint Relational Database Generation via Graph-Conditional Diffusion Models [44.06390394789874]
プライバシのデータリリースや実際のデータセットといったアプリケーションでは、データベース(RDB)の生成モデルの構築が重要です。
従来はシングルテーブル生成にフォーカスするか、あるいはテーブルの順序を固定しテーブルを逐次生成する自動回帰因子化に依存していた。
我々は、RDB内のすべてのテーブルを秩序を課すことなく、共同でモデリングするという、根本的に異なるアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-22T11:12:56Z) - TabDPT: Scaling Tabular Foundation Models on Real Data [20.00390825519329]
ICLに基づく検索と自己教師付き学習を組み合わせた基礎モデルの学習手法を提案する。
事前学習フェーズに実際のデータを組み込むことで、学習が大幅に速くなり、見当たらないデータへの一般化が向上することを示す。
得られたモデルであるTabDPTは回帰 (CTR23) と分類 (CC18) のベンチマークで最高の性能を達成する。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Serving Deep Learning Model in Relational Databases [70.53282490832189]
リレーショナルデータ上での深層学習(DL)モデルの実現は、様々な商業分野や科学分野において重要な要件となっている。
最先端のDL中心アーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。
UDF中心アーキテクチャの可能性は、リレーショナルデータベース管理システム(RDBMS)内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。
論文 参考訳(メタデータ) (2023-10-07T06:01:35Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。