論文の概要: In-Context Data Distillation with TabPFN
- arxiv url: http://arxiv.org/abs/2402.06971v1
- Date: Sat, 10 Feb 2024 15:23:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 18:20:44.371916
- Title: In-Context Data Distillation with TabPFN
- Title(参考訳): TabPFNを用いたインコンテキストデータ蒸留
- Authors: Junwei Ma, Valentin Thomas, Guangwei Yu, Anthony Caterini
- Abstract要約: In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
- 参考スコア(独自算出の注目度): 11.553950697974825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have revolutionized tasks in computer vision and natural
language processing. However, in the realm of tabular data, tree-based models
like XGBoost continue to dominate. TabPFN, a transformer model tailored for
tabular data, mirrors recent foundation models in its exceptional in-context
learning capability, being competitive with XGBoost's performance without the
need for task-specific training or hyperparameter tuning. Despite its promise,
TabPFN's applicability is hindered by its data size constraint, limiting its
use in real-world scenarios. To address this, we present in-context data
distillation (ICD), a novel methodology that effectively eliminates these
constraints by optimizing TabPFN's context. ICD efficiently enables TabPFN to
handle significantly larger datasets with a fixed memory budget, improving
TabPFN's quadratic memory complexity but at the cost of a linear number of
tuning steps. Notably, TabPFN, enhanced with ICD, demonstrates very strong
performance against established tree-based models and modern deep learning
methods on 48 large tabular datasets from OpenML.
- Abstract(参考訳): 基礎モデルはコンピュータビジョンと自然言語処理のタスクに革命をもたらした。
しかし、表データの分野では、xgboostのような木ベースのモデルが支配を続けている。
TabPFNは、表形式のデータ用に調整されたトランスフォーマーモデルであり、タスク固有のトレーニングやハイパーパラメータチューニングを必要とせずに、XGBoostのパフォーマンスと競合し、最近の基礎モデルをその例外的なコンテキスト内学習能力で反映している。
その約束にもかかわらず、TabPFNの適用性はデータサイズの制約によって妨げられ、実際のシナリオでの使用を制限する。
そこで本研究では,TabPFNのコンテキストを最適化することにより,これらの制約を効果的に解消する新しい手法であるICDを提案する。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
特に、ICDで強化されたTabPFNは、既存のツリーベースモデルと、OpenMLから48の大きな表層データセット上の現代的なディープラーニングメソッドに対して、非常に強力なパフォーマンスを示している。
関連論文リスト
- A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws [59.03420759554073]
本稿では,オンライン手法でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO)を導入する。
ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。
ADOは、ドメインごとのスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整する。
論文 参考訳(メタデータ) (2024-10-15T17:47:44Z) - Tokenize features, enhancing tables: the FT-TABPFN model for tabular classification [13.481699494376809]
FT-TabPFNはTabPFNの拡張版で、分類機能をよりよく扱うための新しい機能トークン化レイヤを含んでいる。
私たちの完全なソースコードは、コミュニティの利用と開発に利用可能です。
論文 参考訳(メタデータ) (2024-06-11T02:13:46Z) - TabPFGen -- Tabular Data Generation with TabPFN [4.743548909570325]
高性能トランスであるTabPFNをエネルギーベース生成モデルに変換し、TabPFGenをダブする。
本稿では,データ拡張,クラスバランス,計算処理など,標準的な生成モデルタスクに関する強力な結果を示す。
論文 参考訳(メタデータ) (2024-06-07T18:59:37Z) - Retrieval & Fine-Tuning for In-Context Tabular Models [16.668695961462827]
トランスフォーマーベースのインコンテキスト学習を用いた最近の進歩は、より小さく、より複雑でないデータセットを約束しているが、より大きく、より複雑なデータセットにスケールするのに苦労している。
検索と微調整の組み合わせを提案する: 近接する近隣住民を収集することで、変換器をデータの局所的なサブセットに適応させ、その周辺住民の状況に応じてタスク固有の微調整を行うことができる。
テキスト内モデルと比較すると,性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-06-07T18:43:33Z) - Interpretable Machine Learning for TabPFN [5.012821694203072]
TabPFNモデルは、様々な分類タスクで最先端のパフォーマンスを達成することができる。
モデルのユニークな性質を利用することで、我々の適応はより効率的な計算を可能にします。
論文 参考訳(メタデータ) (2024-03-16T13:35:15Z) - TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks [90.00817095558094]
事前データ対応ネットワーク(PFN)は、事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを実現する。
我々は、大規模なデータセットをより小さな学習コンテキストに圧縮するPFNのパラメータ効率の良い微調整戦略であるTuneTablesを紹介した。
我々は、TuneTablesを解釈可能性ツールとして使用することができ、公平性目標を最適化することでバイアスを軽減することができることを示した。
論文 参考訳(メタデータ) (2024-02-17T00:02:23Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Latent Bottlenecked Attentive Neural Processes [71.18817592128207]
LBANP(Latent Bottlenecked Attentive Neural Processs)について
LBANPは、コンテキストデータポイントの数によらず、クエリ処理の複雑さを持つ。
LBANPは,メタ回帰,画像補完,コンテキスト的マルチアームバンディットに関する最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2022-11-15T19:21:41Z) - TabPFN: A Transformer That Solves Small Tabular Classification Problems
in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。
TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。
提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文 参考訳(メタデータ) (2022-07-05T07:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。