論文の概要: TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks
- arxiv url: http://arxiv.org/abs/2402.11137v2
- Date: Tue, 19 Mar 2024 00:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 23:12:03.483672
- Title: TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks
- Title(参考訳): TuneTables: スケーラブルなプリデータフィットネットワークのためのコンテキスト最適化
- Authors: Benjamin Feuer, Robin Tibor Schirrmeister, Valeriia Cherepanova, Chinmay Hegde, Frank Hutter, Micah Goldblum, Niv Cohen, Colin White,
- Abstract要約: 我々は,事前データ対応ネットワーク(PFN)のコンテキスト最適化手法を開発した。
PFNは、事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを達成する。
我々は,大規模データセットをより小さな学習コンテキストに圧縮する新しいプロンプトチューニング戦略であるTuneTablesを提案する。
- 参考スコア(独自算出の注目度): 90.00817095558094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While tabular classification has traditionally relied on from-scratch training, a recent breakthrough called prior-data fitted networks (PFNs) challenges this approach. Similar to large language models, PFNs make use of pretraining and in-context learning to achieve strong performance on new tasks in a single forward pass. However, current PFNs have limitations that prohibit their widespread adoption. Notably, TabPFN achieves very strong performance on small tabular datasets but is not designed to make predictions for datasets of size larger than 1000. In this work, we overcome these limitations and substantially improve the performance of PFNs by developing context optimization techniques for PFNs. Specifically, we propose TuneTables, a novel prompt-tuning strategy that compresses large datasets into a smaller learned context. TuneTables scales TabPFN to be competitive with state-of-the-art tabular classification methods on larger datasets, while having a substantially lower inference time than TabPFN. Furthermore, we show that TuneTables can be used as an interpretability tool and can even be used to mitigate biases by optimizing a fairness objective.
- Abstract(参考訳): 表形式の分類は伝統的にオフスクラッチトレーニングに依存してきたが、最近PFN(Presideed-data fit Network)と呼ばれるブレークスルーがこのアプローチに挑戦している。
大規模言語モデルと同様に、PFNは事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを達成する。
しかし、現在のPFNには、広く普及することを禁じる制限がある。
特にTabPFNは、小さな表のデータセットで非常に強力なパフォーマンスを達成するが、1000以上のデータセットの予測は設計されていない。
本研究では,これらの制約を克服し,PFNの文脈最適化手法を開発することによりPFNの性能を大幅に向上する。
具体的には、大規模データセットをより小さな学習コンテキストに圧縮する新しいプロンプトチューニング戦略であるTuneTablesを提案する。
TuneTablesはTabPFNを、TabPFNよりもかなり低い推論時間を持ちながら、大規模データセットの最先端のタブラ分類手法と競合するようにスケールする。
さらに、TuneTablesは解釈可能性ツールとして使用することができ、公平性目標を最適化することでバイアスを軽減することができることを示す。
関連論文リスト
- Interpretable Machine Learning for TabPFN [5.012821694203072]
TabPFNモデルは、様々な分類タスクで最先端のパフォーマンスを達成することができる。
モデルのユニークな性質を利用することで、我々の適応はより効率的な計算を可能にします。
論文 参考訳(メタデータ) (2024-03-16T13:35:15Z) - Tree-Regularized Tabular Embeddings [22.095328171882223]
タブラルニューラルネットワーク(NN)は注目を浴びており、近年の進歩により、多くの公開データセット上のツリーベースモデルに対するパフォーマンスギャップが徐々に狭まりつつある。
我々は、均質な埋め込みの重要性を強調し、教師付き事前学習による入力の正規化に交互に集中する。
具体的には、事前訓練された木のアンサンブルの構造を利用して、生変数を単一のベクトル(T2V)またはトークンの配列(T2T)に変換する。
論文 参考訳(メタデータ) (2024-03-01T20:26:33Z) - In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z) - Scaling TabPFN: Sketching and Feature Selection for Tabular Prior-Data
Fitted Networks [31.82225213006849]
タブラル分類は伝統的に教師付きアルゴリズムに依存しており、トレーニングデータを用いて予測モデルのパラメータを推定する。
近年、TabPFNのようなPFN(Presideed Data Fitted Networks)は、コンテキスト内の表データの分類に成功している。
このようなモデルは非常に有望であるが、実際のデータに適用可能であるのは計算規模が限られているためである。
論文 参考訳(メタデータ) (2023-11-17T16:04:27Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Towards Cross-Table Masked Pretraining for Web Data Mining [22.952238405240188]
本稿では,CM2と呼ばれる,革新的で汎用的で効率的なクロステーブル事前学習フレームワークを提案する。
実験では,CM2の最先端性能を実証し,クロステーブルプレトレーニングが様々なダウンストリームタスクを向上させることを実証した。
論文 参考訳(メタデータ) (2023-07-10T02:27:38Z) - When Do Neural Nets Outperform Boosted Trees on Tabular Data? [67.47573557280467]
私たちは一歩後退して、'NN vs. GBDT'議論の重要性に疑問を投げかけます。
驚くほど多くのデータセットに対して、GBDTとNNのパフォーマンスの違いは無視できる。
我々は、データセットのどの特性がNNやGBDTを適切に動作させるために適しているかを決定するために、数十のメタ機能を分析します。
私たちの洞察は、実践者がデータセット上で最もうまく機能するテクニックを決定するためのガイドとして機能します。
論文 参考訳(メタデータ) (2023-05-04T17:04:41Z) - Latent Bottlenecked Attentive Neural Processes [71.18817592128207]
LBANP(Latent Bottlenecked Attentive Neural Processs)について
LBANPは、コンテキストデータポイントの数によらず、クエリ処理の複雑さを持つ。
LBANPは,メタ回帰,画像補完,コンテキスト的マルチアームバンディットに関する最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2022-11-15T19:21:41Z) - Prior-mean-assisted Bayesian optimization application on FRIB Front-End
tunning [61.78406085010957]
我々は、FRIBフロントエンドチューニングのためのBOの事前平均として、過去のデータに基づいてトレーニングされたニューラルネットワークモデルを利用する。
本稿では、FRIBフロントエンドチューニングのためのBOの事前平均として、過去のデータに基づいてトレーニングされたニューラルネットワークモデルを利用する。
論文 参考訳(メタデータ) (2022-11-11T18:34:15Z) - TabPFN: A Transformer That Solves Small Tabular Classification Problems
in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。
TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。
提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文 参考訳(メタデータ) (2022-07-05T07:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。