論文の概要: Mixture of In-Context Prompters for Tabular PFNs
- arxiv url: http://arxiv.org/abs/2405.16156v1
- Date: Sat, 25 May 2024 09:47:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 00:40:50.346383
- Title: Mixture of In-Context Prompters for Tabular PFNs
- Title(参考訳): タブラルPFN用インコンテクストプロンプタの混合
- Authors: Derek Xu, Olcay Cirit, Reza Asadi, Yizhou Sun, Wei Wang,
- Abstract要約: MIXTUREPFNは、36の多様なデータセットに対して、19の強力なディープラーニングとツリーベースのベースラインに対して、Condorcetの勝者である。
上記のアルゴリズムのうち、統計的に有意な上位10位を達成している。
- 参考スコア(独自算出の注目度): 33.76194735049027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent benchmarks found In-Context Learning (ICL) outperforms both deep learning and tree-based algorithms on small tabular datasets. However, on larger datasets, ICL for tabular learning cannot run without severely compromising performance, due to its quadratic space and time complexity w.r.t. dataset size. We propose MIXTUREPFN, which both extends nearest-neighbor sampling to the state-of-the-art ICL for tabular learning model and uses bootstrapping to finetune said model on the inference-time dataset. MIXTUREPFN is the Condorcet winner across 36 diverse tabular datasets against 19 strong deep learning and tree-based baselines, achieving the highest mean rank among Top-10 aforementioned algorithms with statistical significance.
- Abstract(参考訳): 最近のベンチマークでは、ICL(In-Context Learning)は、小さな表のデータセット上で、ディープラーニングとツリーベースのアルゴリズムの両方より優れています。
しかし、より大きなデータセットでは、グラフ学習のためのICLは、その二次空間とデータセットサイズに時間的複雑さがあるため、パフォーマンスを著しく損なうことなく実行できない。
提案するMIXTUREPFNは,近距離サンプリングを表型学習モデルのための最先端のICLに拡張し,ブートストラップを用いて推論時データセット上でそのモデルを微調整する。
MIXTUREPFNは、19の強いディープラーニングとツリーベースのベースラインに対して36の多様な表層データセットをまたいだCondorcetの勝者であり、上記のTop-10アルゴリズムの中で、統計的に有意な最高ランクを達成している。
関連論文リスト
- TabICL: A Tabular Foundation Model for In-Context Learning on Large Data [15.08819125687632]
最大60Kのサンプルを持つ合成データセットで事前訓練された分類のための基礎モデルであるTabICLを紹介する。
TabPFNv2と同等で、体系的に(最大10倍)高速であり、他のすべてのアプローチよりも大幅に優れています。
10K以上のサンプルを持つ56のデータセットで、TabICLはTabPFNv2とCatBoostを上回り、大規模データに対するICLの可能性を示している。
論文 参考訳(メタデータ) (2025-02-08T13:25:04Z) - Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes [135.68092471784516]
本稿では,大規模言語モデルと勾配ブースト決定木を融合させる,シンプルで軽量な手法を提案する。
融合法を LLM-Boost と PFN-Boost と命名した。
多数のベースラインとアンサンブルアルゴリズムに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2025-02-04T19:30:41Z) - Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。
トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。
UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文 参考訳(メタデータ) (2025-01-20T21:10:22Z) - Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。
学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。
また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - A Closer Look at Deep Learning Methods on Tabular Datasets [52.50778536274327]
タブラルデータは、機械学習のさまざまな領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は最近、有望なパフォーマンスを実証した。
我々は,32種類の最先端の深部・木質の手法を比較し,その平均性能を複数の基準で評価した。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - Retrieval & Fine-Tuning for In-Context Tabular Models [16.668695961462827]
トランスフォーマーベースのインコンテキスト学習を用いた最近の進歩は、より小さく、より複雑でないデータセットを約束しているが、より大きく、より複雑なデータセットにスケールするのに苦労している。
検索と微調整の組み合わせを提案する: 近接する近隣住民を収集することで、変換器をデータの局所的なサブセットに適応させ、その周辺住民の状況に応じてタスク固有の微調整を行うことができる。
テキスト内モデルと比較すると,性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-06-07T18:43:33Z) - In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Attention versus Contrastive Learning of Tabular Data -- A Data-centric
Benchmarking [0.0]
本稿では,28データセットの幅広い選択に対して,最先端の注意と対照的な学習手法を広く評価する。
ハイブリット・アテンション・コントラストの学習戦略は、主に分類が難しいデータセットに勝っている。
従来の手法は、おそらくより単純な決定境界を持つデータセットを分類しやすくするのにしばしば優れている。
論文 参考訳(メタデータ) (2024-01-08T22:36:05Z) - TabuLa: Harnessing Language Models for Tabular Data Synthesis [4.539846270369207]
Tabulaは、大きな言語モデル(LLM)の構造を利用する表形式のデータシンセサイザーである。
State-of-the-art (SOTA) の LLM とは異なり、Tabula は元々自然言語処理用に設計されたトレーニング済みのウェイトを捨てている。
実験により,Tabulaは現在のSOTA法と比較して優れた合成データユーティリティを実現していることが示された。
論文 参考訳(メタデータ) (2023-10-19T13:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。