論文の概要: Engineering Regression Without Real-Data Training: Domain Adaptation for Tabular Foundation Models Using Multi-Dataset Embeddings
- arxiv url: http://arxiv.org/abs/2603.04692v1
- Date: Thu, 05 Mar 2026 00:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.01288
- Title: Engineering Regression Without Real-Data Training: Domain Adaptation for Tabular Foundation Models Using Multi-Dataset Embeddings
- Title(参考訳): 実データトレーニングのないエンジニアリング回帰:マルチデータセット埋め込みを用いたタブラリ基礎モデルのドメイン適応
- Authors: Lyle Regenwetter, Rosen Yu, Cyril Picard, Faez Ahmed,
- Abstract要約: TREDBenchは、83の現実世界のレグレッションデータセットのキュレートされたコレクションで、専門家のエンジニアリング/非エンジニアリングラベルが組み込まれています。
標準的な手続き的に生成されたデータセットは、エンジニアリングデータセットと非常に区別され、実質的なドメインギャップがかなり浮かび上がっている。
本研究では, 組込み誘導型合成データキュレーション手法を提案する。我々は, 「エンジニアリングライクな」合成データセットを生成し, 選択した合成タスクのみを用いてTabPFN 2.5の継続事前学習を行う。
- 参考スコア(独自算出の注目度): 3.5539239472975583
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Predictive modeling in engineering applications has long been dominated by bespoke models and small, siloed tabular datasets, limiting the applicability of large-scale learning approaches. Despite recent progress in tabular foundation models, the resulting synthetic training distributions used for pre-training may not reflect the statistical structure of engineering data, limiting transfer to engineering regression. We introduce TREDBench, a curated collection of 83 real-world tabular regression datasets with expert engineering/non-engineering labels, and use TabPFN 2.5's dataset-level embedding to study domain structure in a common representation space. We find that engineering datasets are partially distinguishable from non-engineering datasets, while standard procedurally generated datasets are highly distinguishable from engineering datasets, revealing a substantial synthetic-real domain gap. To bridge this gap without training on real engineering samples, we propose an embedding-guided synthetic data curation method: we generate and identify "engineering-like" synthetic datasets, and perform continued pre-training of TabPFN 2.5 using only the selected synthetic tasks. Across 35 engineering regression datasets, this synthetic-only adaptation improves predictive accuracy and data efficiency, outperforming TabPFN 2.5 on 29/35 datasets and AutoGluon on 27/35, with mean multiplicative data-efficiency gains of 1.75x and 4.44x, respectively. More broadly, our results indicate that principled synthetic data curation can convert procedural generators into domain-relevant "data engines," enabling foundation models to improve in data-sparse scientific and industrial domains where real data collection is the primary bottleneck.
- Abstract(参考訳): エンジニアリングアプリケーションにおける予測モデリングは、長い間、大規模な学習アプローチの適用性を制限するため、ベスポークモデルと小さなサイロ化された表型データセットによって支配されてきた。
表層基礎モデルの最近の進歩にもかかわらず、事前学習に使用される合成トレーニング分布は、工学データの統計的構造を反映せず、工学回帰への遷移を制限する可能性がある。
本稿では,TabPFN 2.5のデータセットレベルの埋め込みを用いて,共通表現空間におけるドメイン構造の研究を行う。
エンジニアリングデータセットが非エンジニアリングデータセットと部分的に区別可能であるのに対して、標準的な手続き的に生成されたデータセットはエンジニアリングデータセットと非常に区別され、実質的な合成ドメインギャップが明らかになる。
このギャップを実際の工学的サンプルをトレーニングせずに埋め込むため,我々は,組込み誘導型合成データキュレーション法を提案する: 「エンジニアリングライクな」合成データセットを生成し,抽出した合成タスクのみを用いて,TabPFN 2.5の継続事前学習を行う。
35のエンジニアリング回帰データセットに対して、この合成専用適応は予測精度とデータ効率を改善し、29/35データセットではTabPFN 2.5、27/35ではAutoGluon、平均乗算データ効率は1.75xと4.44xを上回っている。
より広範に,本研究の結果は,データ収集が主要なボトルネックとなっているデータスパースな科学・産業領域における基礎モデルの改善を可能にするため,プロシージャジェネレータをドメイン関連「データエンジン」に変換することができることを示唆している。
関連論文リスト
- Closing the Data Loop: Using OpenDataArena to Engineer Superior Training Datasets [46.480867560675584]
アドホックなキュレーションからOpenDataArena(ODA)を用いたクローズドループデータセットエンジニアリングフレームワークへのパラダイムシフトを提案する。
textbfODA-Math460-kは、AIMEやHMMTなどのベンチマークでステート・オブ・ザ・アーツ(SOTA)結果を達成するために、新しい2段階の難易度対応パイプラインを利用する特殊な数学推論データセットであり、textbfODA-Mixture (100k & 500k) はアンカー・アンド・アンカーで構築された一連のマルチドメイン命令データセットである。
論文 参考訳(メタデータ) (2025-12-30T17:46:38Z) - Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Synthline: A Product Line Approach for Synthetic Requirements Engineering Data Generation using Large Language Models [0.5156484100374059]
本稿では,大規模言語モデルを用いて合成要求工学(RE)データを生成する製品ライン(PL)アプローチであるSynthlineを紹介する。
我々の分析によると、合成データセットは実際のデータよりも多様性が低いが、実行可能なトレーニングリソースとして機能するには十分である。
以上の結果から, 合成データと実データを組み合わせることで, 大幅な性能向上が期待できる。
論文 参考訳(メタデータ) (2025-05-06T07:57:16Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。
ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。
第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文 参考訳(メタデータ) (2022-11-23T00:04:57Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。