論文の概要: RDBLearn: Simple In-Context Prediction Over Relational Databases
- arxiv url: http://arxiv.org/abs/2602.18495v1
- Date: Sat, 14 Feb 2026 09:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.100464
- Title: RDBLearn: Simple In-Context Prediction Over Relational Databases
- Title(参考訳): RDBLearn:リレーショナルデータベース上でのシンプルなインコンテキスト予測
- Authors: Yanlin Zhang, Linjie Xu, Quan Gan, David Wipf, Minjie Wang,
- Abstract要約: 簡単なレシピを簡単なレシピでリレーショナルな予測に拡張できることを示す。
本手法は,Scikit-learn-style estimator インタフェースを備えた使いやすいツールキットである textitRDBLearn に実装する。
RelBenchと4DBInferデータセットの広範なコレクションの中で、RDBLearnは私たちが評価した最も優れた基盤モデルアプローチです。
- 参考スコア(独自算出の注目度): 21.996337463952255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in tabular in-context learning (ICL) show that a single pretrained model can adapt to new prediction tasks from a small set of labeled examples, avoiding per-task training and heavy tuning. However, many real-world tasks live in relational databases, where predictive signal is spread across multiple linked tables rather than a single flat table. We show that tabular ICL can be extended to relational prediction with a simple recipe: automatically featurize each target row using relational aggregations over its linked records, materialize the resulting augmented table, and run an off-the-shelf tabular foundation model on it. We package this approach in \textit{RDBLearn} (https://github.com/HKUSHXLab/rdblearn), an easy-to-use toolkit with a scikit-learn-style estimator interface that makes it straightforward to swap different tabular ICL backends; a complementary agent-specific interface is provided as well. Across a broad collection of RelBench and 4DBInfer datasets, RDBLearn is the best-performing foundation model approach we evaluate, at times even outperforming strong supervised baselines trained or fine-tuned on each dataset.
- Abstract(参考訳): 近年の表型インコンテキスト学習(ICL)の進歩は、単一の事前学習モデルが、タスクごとのトレーニングや重度チューニングを回避し、ラベル付きサンプルの小さなセットから新しい予測タスクに適応できることを示している。
しかし、現実のタスクの多くはリレーショナルデータベースに存在しており、予測信号は単一のフラットテーブルではなく、複数のリンクテーブルに分散している。
テーブル状ICLを単純なレシピでリレーショナル予測に拡張できることを示し、リレーショナルアグリゲーションを用いて各ターゲット行を自動生成し、拡張テーブルを具体化し、その上にオフザシェルのタブ状基盤モデルを実行する。
このアプローチは,Scikit-learn-style estimatorインターフェースを備えた使いやすいツールキットであるtextit{RDBLearn} (https://github.com/HKUSHXLab/rdblearn) にパッケージ化されている。
RelBenchデータセットと4DBInferデータセットの広範なコレクションの中で、RDBLearnは最も優れた基礎モデルアプローチであり、時にはデータセット毎にトレーニングされたり、微調整されたりする強力な教師付きベースラインよりも優れています。
関連論文リスト
- Comparing Task-Agnostic Embedding Models for Tabular Data [1.6479389738270018]
この研究は特に表現学習、すなわち伝達可能なタスクに依存しない埋め込みに焦点を当てている。
テーブルライザ機能は、最近の基礎モデルよりも最大3桁高速で、同等または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-18T09:10:40Z) - Generalization Can Emerge in Tabular Foundation Models From a Single Table [38.07740881271672]
簡単な自己教師型事前学習は、単体の実テーブル上で、異種ベンチマーク間で驚くほど強力な転送を実現できることを示す。
次に、ほとんどのTFMが共有する事前学習手順に接続し、データセットから構築できるEmphtaskの数と品質が、下流のパフォーマンスの鍵であることを示します。
論文 参考訳(メタデータ) (2025-11-12T19:12:40Z) - Relational Database Distillation: From Structured Tables to Condensed Graph Data [48.347717300340435]
グラフベースモデルに必要な電力を維持しつつ,大規模RDBをコンパクトなヘテロジニアスグラフに蒸留することを目的としている。
さらに、擬似ラベルを用いてカーネルリッジ回帰誘導目標を設計し、蒸留グラフの品質特性を創出する。
論文 参考訳(メタデータ) (2025-10-08T13:05:31Z) - TabICL: A Tabular Foundation Model for In-Context Learning on Large Data [15.08819125687632]
最大60Kサンプルの合成データセットを事前学習した表層ベースモデルであるTabICLを導入する。
TALENTベンチマークから200を越える分類データセットのうち、TabICLはTabPFNv2と同等であり、体系的に高速(最大10倍)である。
10K以上のサンプルを持つ53のデータセットで、TabICLはTabPFNv2とCatBoostを上回り、大規模データに対するICLの可能性を示している。
論文 参考訳(メタデータ) (2025-02-08T13:25:04Z) - Towards Better Understanding Table Instruction Tuning: Decoupling the Effects from Data versus Models [62.47618742274461]
既存の公開トレーニングデータセットに基づいて、Mistral、OLMo、Phiファミリーからベースモデルを微調整します。
我々のレプリケーションは、既存のテーブルLLMと同等以上のパフォーマンスを実現しています。
トレーニングデータとベースモデルのコントリビューションを分離し、個々の影響に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-01-24T18:50:26Z) - PORTAL: Scalable Tabular Foundation Models via Content-Specific Tokenization [7.036380633387952]
我々は、クリーニングや前処理を必要とせずに、様々なデータモダリティを処理するフレームワーク、 Portal(Pretraining One-Row-at-a-Time for All tabLes)を紹介します。
オンラインにコンパイルされたデータセットで効果的に事前トレーニングされ、複雑な分類と回帰タスクに関する最先端の手法に適合するように微調整される。
論文 参考訳(メタデータ) (2024-10-17T13:05:44Z) - RelBench: A Benchmark for Deep Learning on Relational Databases [78.52438155603781]
本稿では,グラフニューラルネットワークを用いたデータベース上でタスクを解くための公開ベンチマークであるRelBenchを紹介する。
私たちはRelBenchを使って、ディープラーニングインフラストラクチャに関する初の総合的な研究を行っています。
RDLは、人間の作業量を1桁以上削減しながら、より良く学習する。
論文 参考訳(メタデータ) (2024-07-29T14:46:13Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。