論文の概要: Noise Immunity in In-Context Tabular Learning: An Empirical Robustness Analysis of TabPFN's Attention Mechanisms
- arxiv url: http://arxiv.org/abs/2604.04868v1
- Date: Mon, 06 Apr 2026 17:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.302886
- Title: Noise Immunity in In-Context Tabular Learning: An Empirical Robustness Analysis of TabPFN's Attention Mechanisms
- Title(参考訳): In-Context Tabular Learningにおけるノイズ免疫:TabPFNの注意機構の実証的ロバスト性解析
- Authors: James Hu, Mahdi Ghelichi,
- Abstract要約: 言語基礎モデル(TFM)は、文脈内学習(ICL)を通して異種データセットを一般化する
制御された合成摂動を用いた二元分類問題に対するTabPFNとその注意機構について検討する。
我々は、注意集中度や注目度に基づく特徴ランクの指標を含む内部信号を分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular foundation models (TFMs) such as TabPFN (Tabular Prior-Data Fitted Network) are designed to generalize across heterogeneous tabular datasets through in-context learning (ICL). They perform prediction in a single forward pass conditioned on labeled examples without dataset-specific parameter updates. This paradigm is particularly attractive in industrial domains (e.g., finance and healthcare) where tabular prediction is pervasive. Retraining a bespoke model for each new table can be costly or infeasible in these settings, while data quality issues such as irrelevant predictors, correlated feature groups, and label noise are common. In this paper, we provide strong empirical evidence that TabPFN is highly robust under these sub-optimal conditions. We study TabPFN and its attention mechanisms for binary classification problems with controlled synthetic perturbations that vary: (i) dataset width by injecting random uncorrelated features and by introducing nonlinearly correlated features, (ii) dataset size by increasing the number of training rows, and (iii) label quality by increasing the fraction of mislabeled targets. Beyond predictive performance, we analyze internal signals including attention concentration and attention-based feature ranking metrics. Across these parametric tests, TabPFN is remarkably resilient: ROC-AUC remains high, attention stays structured and sharp, and informative features are highly ranked by attention-based metrics. Qualitative visualizations with attention heatmaps, feature-token embeddings, and SHAP plots further support a consistent pattern across layers in which TabPFN increasingly concentrates on useful features while separating their signals from noise. Together, these findings suggest that TabPFN is a robust TFM capable of maintaining both predictive performance and coherent internal behavior under various scenarios of data imperfections.
- Abstract(参考訳): TabPFN (Tabular Prior-Data Fitted Network) のようなタブラル基礎モデル (TFM) は、コンテキスト内学習 (ICL) を通じて異種タブ状データセットを一般化するように設計されている。
データセット固有のパラメータを更新することなく、ラベル付き例に条件付けされた単一のフォワードパスで予測を実行する。
このパラダイムは特に、表の予測が広まる産業領域(例えば金融や医療)で魅力的です。
これらの設定では、新しいテーブルごとにベスポークモデルをリトレーニングすることはコストがかかるか不可能であり、無関係な予測器、相関特徴群、ラベルノイズといったデータ品質の問題が一般的である。
本稿では,これらの準最適条件下でのTabPFNの強靭性を示す。
制御された合成摂動を伴う二分分類問題に対するTabPFNとその注意機構について検討する。
一 ランダムな無相関な特徴を注入し、非線形に相関する特徴を導入することにより、データセット幅
二 トレーニング行数を増やすことによりデータセットのサイズ、及び
三 誤記対象数を増やすことにより、ラベルの質を高めること。
予測性能以外にも、注意集中度や注目に基づく特徴ランクの指標を含む内部信号を解析する。
これらのパラメトリックテスト全体を通して、TabPFNは驚くほど回復力があり、ROC-AUCは高いままであり、注意は構造化され鋭く、情報的特徴は注意に基づくメトリクスによって高いランク付けされる。
注目のヒートマップ、特徴への埋め込み、SHAPプロットを備えた定性的な可視化は、TabPFNがノイズから信号を分離しながら有用な機能に集中する層間の一貫性のあるパターンをさらにサポートする。
これらの結果から,TabPFNはデータ不完全性の様々なシナリオ下での予測性能とコヒーレントな内部挙動の両方を維持できる頑健なTFMであることが示唆された。
関連論文リスト
- i-IF-Learn: Iterative Feature Selection and Unsupervised Learning for High-Dimensional Complex Data [5.761834753104483]
i-IF-Learnは、機能選択とクラスタリングを共同で実行する教師なしのフレームワークである。
我々の中心となる革新は、擬似ラベル監視と教師なし信号とを効果的に組み合わせた適応的特徴選択統計である。
遺伝子マイクロアレイと単細胞RNA-seqデータセットの実験により、i-IF-Learnは古典的および深層クラスタリングベースラインを著しく超えることが示された。
論文 参考訳(メタデータ) (2026-03-25T07:35:38Z) - Causal Pre-training Under the Fairness Lens: An Empirical Study of TabPFN [3.059960033014892]
Tabular Prior-data Fitted Network (TabPFN) とその微調整版の評価を行った。
以上の結果から,TabPFNはベースラインに比べて高い予測精度を達成できるが,公平性の改善は適度で矛盾することがわかった。
以上の結果から,TabPFNの因果前訓練はアルゴリズム的公平性には不十分であることが示唆された。
論文 参考訳(メタデータ) (2026-01-25T17:17:12Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - A Closer Look at TabPFN v2: Understanding Its Strengths and Extending Its Capabilities [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、さまざまな下流データセット間で、前例のないコンテキスト内学習性能を達成する。
本研究では,TabPFN v2が属性トークンをランダムに入力しても属性関係を推測可能であることを示す。
我々はTabPFN v2の制限がテスト時間分割・コンテキスト戦略によって対処できることを実証した。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。