論文の概要: TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
- arxiv url: http://arxiv.org/abs/2510.02625v1
- Date: Fri, 03 Oct 2025 00:08:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.207585
- Title: TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
- Title(参考訳): TabImpute: 事前トレーニングトランスによるゼロショットミスデータインプットの精度と高速化
- Authors: Jacob Feitelberg, Dwaipayan Saha, Kyuseong Choi, Zaid Ahmad, Anish Agarwal, Raaz Dwivedi,
- Abstract要約: TabImputeはトレーニング済みのトランスフォーマーで、正確で高速なゼロショット計算を提供する。
MissBenchは、32ドルのOpenMLデータセットと13ドルの欠落パターンを備えた計算方法の評価のためのベンチマークである。
- 参考スコア(独自算出の注目度): 10.73832903466491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.
- Abstract(参考訳): データの欠落は、表の設定において広範囲にわたる問題である。
既存のソリューションは、単純な平均化から複雑な生成逆数ネットワークまで様々である。
しかし、実世界のドメイン間での性能のばらつきと時間を要するハイパーパラメータチューニングのため、既定の計算法は存在しない。
教師あり学習のための表形式の基礎モデルであるTabPFNをベースとしたTabImputeを提案する。
TabImputeのトレーニングと評価について紹介する
(i)従来のTabPFN計算法よりも100\times$のスピードアップが可能な表の設定のエントリワイズ化。
二 テスト時間性能を高める現実的な不足パターンを取り入れた総合訓練データ生成パイプライン
(iii)MissBenchは、42ドルのOpenMLデータセットと13ドルの欠落パターンを備えた計算方法の評価のための総合的なベンチマークである。
ミスベンチは医学、金融、工学などの領域にまたがっており、TabImputeの堅牢なパフォーマンスを、確立された計算法である111ドルと比較している。
関連論文リスト
- Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - Zero-shot Meta-learning for Tabular Prediction Tasks with Adversarially Pre-trained Transformer [2.1677183904102257]
本稿では、実世界のデータセットを事前学習することなく、表形式の予測タスクでゼロショットメタ学習を行うことのできるAdversarially Pre-trained Transformer(APT)を提案する。
APTは、異なる合成データセットで意図的にモデルに挑戦する敵対的な合成データエージェントで事前訓練されている。
筆者らのフレームワークは,データセットの特徴をフィルタリングすることなく,小さな分類タスクにおける最先端のパフォーマンスと一致していることを示す。
論文 参考訳(メタデータ) (2025-02-06T23:58:11Z) - DispFormer: A Pretrained Transformer Incorporating Physical Constraints for Dispersion Curve Inversion [56.64622091009756]
本研究では、レイリー波位相と群分散曲線からプロファイルインバージョンを$v_s$とするトランスフォーマーベースのニューラルネットワークであるDispFormerを紹介する。
DispFormerは各期間に分散データを個別に処理し、ネットワークの変更やデータセットのトレーニングとテストの厳格な調整を必要とせずに、さまざまな長さを処理できる。
論文 参考訳(メタデータ) (2025-01-08T09:08:24Z) - Interpretable Machine Learning for TabPFN [5.012821694203072]
TabPFNモデルは、様々な分類タスクで最先端のパフォーマンスを達成することができる。
モデルのユニークな性質を利用することで、我々の適応はより効率的な計算を可能にします。
論文 参考訳(メタデータ) (2024-03-16T13:35:15Z) - TabPFN: A Transformer That Solves Small Tabular Classification Problems
in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。
TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。
提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文 参考訳(メタデータ) (2022-07-05T07:17:43Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Time-Series Imputation with Wasserstein Interpolation for Optimal
Look-Ahead-Bias and Variance Tradeoff [66.59869239999459]
ファイナンスでは、ポートフォリオ最適化モデルをトレーニングする前に、損失の計算を適用することができる。
インキュベーションのために全データセットを使用するルックアヘッドバイアスと、トレーニングデータのみを使用することによるインキュベーションの大きなばらつきとの間には、本質的にトレードオフがある。
提案手法は,提案法における差分とルックアヘッドバイアスのトレードオフを最適に制御するベイズ後部コンセンサス分布である。
論文 参考訳(メタデータ) (2021-02-25T09:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。