論文の概要: In-Context Data Distillation with TabPFN
- arxiv url: http://arxiv.org/abs/2402.06971v1
- Date: Sat, 10 Feb 2024 15:23:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 18:20:44.371916
- Title: In-Context Data Distillation with TabPFN
- Title(参考訳): TabPFNを用いたインコンテキストデータ蒸留
- Authors: Junwei Ma, Valentin Thomas, Guangwei Yu, Anthony Caterini
- Abstract要約: In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
- 参考スコア(独自算出の注目度): 11.553950697974825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have revolutionized tasks in computer vision and natural
language processing. However, in the realm of tabular data, tree-based models
like XGBoost continue to dominate. TabPFN, a transformer model tailored for
tabular data, mirrors recent foundation models in its exceptional in-context
learning capability, being competitive with XGBoost's performance without the
need for task-specific training or hyperparameter tuning. Despite its promise,
TabPFN's applicability is hindered by its data size constraint, limiting its
use in real-world scenarios. To address this, we present in-context data
distillation (ICD), a novel methodology that effectively eliminates these
constraints by optimizing TabPFN's context. ICD efficiently enables TabPFN to
handle significantly larger datasets with a fixed memory budget, improving
TabPFN's quadratic memory complexity but at the cost of a linear number of
tuning steps. Notably, TabPFN, enhanced with ICD, demonstrates very strong
performance against established tree-based models and modern deep learning
methods on 48 large tabular datasets from OpenML.
- Abstract(参考訳): 基礎モデルはコンピュータビジョンと自然言語処理のタスクに革命をもたらした。
しかし、表データの分野では、xgboostのような木ベースのモデルが支配を続けている。
TabPFNは、表形式のデータ用に調整されたトランスフォーマーモデルであり、タスク固有のトレーニングやハイパーパラメータチューニングを必要とせずに、XGBoostのパフォーマンスと競合し、最近の基礎モデルをその例外的なコンテキスト内学習能力で反映している。
その約束にもかかわらず、TabPFNの適用性はデータサイズの制約によって妨げられ、実際のシナリオでの使用を制限する。
そこで本研究では,TabPFNのコンテキストを最適化することにより,これらの制約を効果的に解消する新しい手法であるICDを提案する。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
特に、ICDで強化されたTabPFNは、既存のツリーベースモデルと、OpenMLから48の大きな表層データセット上の現代的なディープラーニングメソッドに対して、非常に強力なパフォーマンスを示している。
関連論文リスト
- Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks [93.88484143421037]
我々は,事前データ対応ネットワーク(PFN)のコンテキスト最適化手法を開発した。
PFNは、事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを達成する。
我々は,大規模データセットをより小さな学習コンテキストに圧縮する新しいプロンプトチューニング戦略であるTuneTablesを提案する。
論文 参考訳(メタデータ) (2024-02-17T00:02:23Z) - MambaTab: A Simple Yet Effective Approach for Handling Tabular Data [15.487912830321042]
本研究は,表データのための構造化状態空間モデル(SSM)であるMambaTabに基づく革新的なアプローチを開発する。
MambaTabは、パラメータが大幅に少なく、プリプロセッシングが最小限で、優れたパフォーマンスを提供する。
MambaTabの効率性、スケーラビリティ、一般化可能性、予測的ゲインは、軽量で"アウト・オブ・ザ・ボックス"なソリューションであることを示している。
論文 参考訳(メタデータ) (2024-01-16T22:44:12Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - REaLTabFormer: Generating Realistic Relational and Tabular Data using
Transformers [0.0]
本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。
まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。
実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
論文 参考訳(メタデータ) (2023-02-04T00:32:50Z) - Latent Bottlenecked Attentive Neural Processes [71.18817592128207]
LBANP(Latent Bottlenecked Attentive Neural Processs)について
LBANPは、コンテキストデータポイントの数によらず、クエリ処理の複雑さを持つ。
LBANPは,メタ回帰,画像補完,コンテキスト的マルチアームバンディットに関する最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2022-11-15T19:21:41Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z) - TabPFN: A Transformer That Solves Small Tabular Classification Problems
in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。
TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。
提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文 参考訳(メタデータ) (2022-07-05T07:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。