論文の概要: Causal Data Augmentation for Robust Fine-Tuning of Tabular Foundation Models
- arxiv url: http://arxiv.org/abs/2601.04110v1
- Date: Wed, 07 Jan 2026 17:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.704619
- Title: Causal Data Augmentation for Robust Fine-Tuning of Tabular Foundation Models
- Title(参考訳): タブラル基礎モデルのロバスト微調整のための因果データ拡張
- Authors: Magnus Bühler, Lennart Purucker, Frank Hutter,
- Abstract要約: CausalMixFTは、微調整の堅牢性と下流のパフォーマンスを向上させる方法である。
ターゲットデータセットに適合した構造因果モデル(Structure Causal Models, SCM)を用いて、構造的に一貫した合成サンプルを生成する。
TabArenaの33の分類データセットと2300以上の微調整実行で評価された。
- 参考スコア(独自算出の注目度): 45.21399037022976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning tabular foundation models (TFMs) under data scarcity is challenging, as early stopping on even scarcer validation data often fails to capture true generalization performance. We propose CausalMixFT, a method that enhances fine-tuning robustness and downstream performance by generating structurally consistent synthetic samples using Structural Causal Models (SCMs) fitted on the target dataset. This approach augments limited real data with causally informed synthetic examples, preserving feature dependencies while expanding training diversity. Evaluated across 33 classification datasets from TabArena and over 2300 fine-tuning runs, our CausalMixFT method consistently improves median normalized ROC-AUC from 0.10 (standard fine-tuning) to 0.12, outperforming purely statistical generators such as CTGAN (-0.01), TabEBM (-0.04), and TableAugment (-0.09). Moreover, it narrows the median validation-test performance correlation gap from 0.67 to 0.30, enabling more reliable validation-based early stopping, a key step toward improving fine-tuning stability under data scarcity. These results demonstrate that incorporating causal structure into data augmentation provides an effective and principled route to fine-tuning tabular foundation models in low-data regimes.
- Abstract(参考訳): データ不足下での微調整表基盤モデル(TFMs)は、不足した検証データの早期停止が真の一般化性能を捉えるのに失敗することが多いため、困難である。
本研究では,構造因果モデル (Structure Causal Models, SCM) を用いて構造的に一貫した合成サンプルを生成し, 微調整ロバスト性と下流性能を向上させる手法であるCausalMixFTを提案する。
このアプローチは、トレーニングの多様性を拡大しながら、機能依存を保ちながら、因果的に情報を得た合成例で、制限された実データを拡張する。
この手法はTabArenaの33の分類データセットと2300以上の微調整実行で評価され、中央正規化ROC-AUCを0.10(標準微調整)から0.12に改善し、CTGAN(-0.01)、TabEBM(-0.04)、TableAugment(-0.09)といった純粋に統計的なジェネレータよりも優れています。
さらに、データ不足下での微調整安定性向上に向けた重要なステップである、信頼性の高いバリデーションベースの早期停止を可能にするため、中央値のバリデーション-テストパフォーマンス相関ギャップを0.67から0.30に縮小する。
これらの結果は、データ拡張に因果構造を組み込むことが、低データ体制における微調整表基盤モデルへの効果的かつ原則的な経路を提供することを示した。
関連論文リスト
- Rethinking Long-tailed Dataset Distillation: A Uni-Level Framework with Unbiased Recovery and Relabeling [105.8570596633629]
トラジェクトリに基づく手法の限界を再考することにより,長い尾のデータセット蒸留を再考する。
統計的アライメントの観点からバイアスをモデル化し、公正な監督を復元する。
提案手法は,CIFAR-100-LTで15.6%,Tiny-ImageNet-LTで11.8%向上する。
論文 参考訳(メタデータ) (2025-11-24T07:57:01Z) - SG-OIF: A Stability-Guided Online Influence Framework for Reliable Vision Data [6.4391040754741296]
本稿では,テスト予測に対するトレーニングポイントの影響を近似するための安定誘導オンライン影響フレームワーク(SG-OIF)を提案する。
CIFAR-10の上位1%の予測サンプルでは,SG-OIFが91.1%,MNISTの99.8%のAUPRスコアが得られた。
論文 参考訳(メタデータ) (2025-11-21T19:58:54Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - TACO: Tackling Over-correction in Federated Learning with Tailored Adaptive Correction [24.266135702821334]
エッジクライアントにまたがる非独立で同一に分散された(Non-IID)データは、長い間、連邦学習(FL)トレーニングに重大な課題を提起してきた。
本研究では,クライアント固有の勾配補正とモデルアグリゲーションを実装することで,クライアントのデータの非IID特性に対処する新しいアルゴリズムTACOを提案する。
トレーニング効率を向上させるため、TACOは、最小限のオーバーヘッドと同期モデルパラメータ以外の余分な情報を必要としない、軽量なモデル修正と調整された集約アプローチを展開している。
論文 参考訳(メタデータ) (2025-04-24T13:16:21Z) - Drift-Resilient TabPFN: In-Context Learning Temporal Distribution Shifts on Tabular Data [39.40116554523575]
In-Context Learning with a Prior-Data Fitted Network に基づく新しいアプローチである Drift-Resilient TabPFN を提案する。
先行した合成データセットのベイズ推定を近似することを学ぶ。
精度は0.688から0.744に向上し、OC AUCは0.786から0.832に向上し、キャリブレーションも強化された。
論文 参考訳(メタデータ) (2024-11-15T23:49:23Z) - AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。
手作り正則化技術を用いた頑健な微調整への最近のアプローチ
我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文 参考訳(メタデータ) (2024-01-18T18:58:49Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Better May Not Be Fairer: A Study on Subgroup Discrepancy in Image
Classification [73.87160347728314]
CIFAR10とCIFAR100のテストセットを各画像の背景色に基づいてサブグループにアノテートすることで、自然背景色が刺激的な特徴としてどのように機能するかを検討する。
全体としての人間レベルの精度は、一貫したサブグループ性能を保証せず、この現象はImageNetで事前訓練されたモデルやデータ拡張後のモデルでも継続している。
実験の結果,FlowAugはCIFAR10/100およびCIFAR10/100-C上で,他のDA法よりも一貫したサブグループ結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-12-16T18:51:10Z) - Elastic weight consolidation for better bias inoculation [24.12790037712358]
EWC(Elastic Weight Consolidation)は、モデルの微調整によってバイアスを緩和する。
EWCは標準的な微調整を支配し、元の(バイアス付き)データセットを忘れるレベルの低いモデルを生成する。
論文 参考訳(メタデータ) (2020-04-29T17:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。