Fugu-MT 論文翻訳(概要): In-Context Data Distillation with TabPFN

論文の概要: In-Context Data Distillation with TabPFN

arxiv url: http://arxiv.org/abs/2402.06971v1
Date: Sat, 10 Feb 2024 15:23:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 18:20:44.371916
Title: In-Context Data Distillation with TabPFN
Title（参考訳）: TabPFNを用いたインコンテキストデータ蒸留
Authors: Junwei Ma, Valentin Thomas, Guangwei Yu, Anthony Caterini
Abstract要約: In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。 ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
参考スコア（独自算出の注目度）: 11.553950697974825
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foundation models have revolutionized tasks in computer vision and natural language processing. However, in the realm of tabular data, tree-based models like XGBoost continue to dominate. TabPFN, a transformer model tailored for tabular data, mirrors recent foundation models in its exceptional in-context learning capability, being competitive with XGBoost's performance without the need for task-specific training or hyperparameter tuning. Despite its promise, TabPFN's applicability is hindered by its data size constraint, limiting its use in real-world scenarios. To address this, we present in-context data distillation (ICD), a novel methodology that effectively eliminates these constraints by optimizing TabPFN's context. ICD efficiently enables TabPFN to handle significantly larger datasets with a fixed memory budget, improving TabPFN's quadratic memory complexity but at the cost of a linear number of tuning steps. Notably, TabPFN, enhanced with ICD, demonstrates very strong performance against established tree-based models and modern deep learning methods on 48 large tabular datasets from OpenML.
Abstract（参考訳）: 基礎モデルはコンピュータビジョンと自然言語処理のタスクに革命をもたらした。しかし、表データの分野では、xgboostのような木ベースのモデルが支配を続けている。 TabPFNは、表形式のデータ用に調整されたトランスフォーマーモデルであり、タスク固有のトレーニングやハイパーパラメータチューニングを必要とせずに、XGBoostのパフォーマンスと競合し、最近の基礎モデルをその例外的なコンテキスト内学習能力で反映している。その約束にもかかわらず、TabPFNの適用性はデータサイズの制約によって妨げられ、実際のシナリオでの使用を制限する。そこで本研究では,TabPFNのコンテキストを最適化することにより,これらの制約を効果的に解消する新しい手法であるICDを提案する。 ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。特に、ICDで強化されたTabPFNは、既存のツリーベースモデルと、OpenMLから48の大きな表層データセット上の現代的なディープラーニングメソッドに対して、非常に強力なパフォーマンスを示している。

関連論文リスト

Prior-Fitted Networks Scale to Larger Datasets When Treated as Weak Learners [82.72552644267724]
BoostPFNは、大規模なデータセットでトレーニングサンプルと同じサイズで、標準的なPFNよりもパフォーマンスがよい。高い性能はPFNのトレーニング前サイズの最大50倍まで維持される。
論文参考訳（メタデータ） (2025-03-03T07:31:40Z)
A Closer Look at TabPFN v2: Strength, Limitation, and Extension [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、複数のデータセットにまたがる前例のないコンテキスト内学習の精度を達成する。本稿では,300以上のデータセット上でTabPFN v2を評価し,中小規模タスクにおける例外的な一般化機能を確認する。
論文参考訳（メタデータ） (2025-02-24T17:38:42Z)
Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes [135.68092471784516]
本稿では,大規模言語モデルと勾配ブースト決定木を融合させる,シンプルで軽量な手法を提案する。融合法を LLM-Boost と PFN-Boost と命名した。多数のベースラインとアンサンブルアルゴリズムに対して最先端の性能を示す。
論文参考訳（メタデータ） (2025-02-04T19:30:41Z)
A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文参考訳（メタデータ） (2024-10-15T20:08:08Z)
Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws [59.03420759554073]
本稿では,オンライン手法でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO)を導入する。 ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。 ADOは、ドメインごとのスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整する。
論文参考訳（メタデータ） (2024-10-15T17:47:44Z)
Tokenize features, enhancing tables: the FT-TABPFN model for tabular classification [13.481699494376809]
FT-TabPFNはTabPFNの拡張版で、分類機能をよりよく扱うための新しい機能トークン化レイヤを含んでいる。私たちの完全なソースコードは、コミュニティの利用と開発に利用可能です。
論文参考訳（メタデータ） (2024-06-11T02:13:46Z)
TabPFGen -- Tabular Data Generation with TabPFN [4.743548909570325]
高性能トランスであるTabPFNをエネルギーベース生成モデルに変換し、TabPFGenをダブする。本稿では,データ拡張,クラスバランス,計算処理など,標準的な生成モデルタスクに関する強力な結果を示す。
論文参考訳（メタデータ） (2024-06-07T18:59:37Z)
Retrieval & Fine-Tuning for In-Context Tabular Models [16.668695961462827]
トランスフォーマーベースのインコンテキスト学習を用いた最近の進歩は、より小さく、より複雑でないデータセットを約束しているが、より大きく、より複雑なデータセットにスケールするのに苦労している。検索と微調整の組み合わせを提案する: 近接する近隣住民を収集することで、変換器をデータの局所的なサブセットに適応させ、その周辺住民の状況に応じてタスク固有の微調整を行うことができる。テキスト内モデルと比較すると,性能が大幅に向上した。
論文参考訳（メタデータ） (2024-06-07T18:43:33Z)
Interpretable Machine Learning for TabPFN [5.012821694203072]
TabPFNモデルは、様々な分類タスクで最先端のパフォーマンスを達成することができる。モデルのユニークな性質を利用することで、我々の適応はより効率的な計算を可能にします。
論文参考訳（メタデータ） (2024-03-16T13:35:15Z)
TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks [90.00817095558094]
事前データ対応ネットワーク(PFN)は、事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを実現する。我々は、大規模なデータセットをより小さな学習コンテキストに圧縮するPFNのパラメータ効率の良い微調整戦略であるTuneTablesを紹介した。我々は、TuneTablesを解釈可能性ツールとして使用することができ、公平性目標を最適化することでバイアスを軽減することができることを示した。
論文参考訳（メタデータ） (2024-02-17T00:02:23Z)
Training-Free Generalization on Heterogeneous Tabular Data via Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文参考訳（メタデータ） (2023-10-31T18:03:54Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Latent Bottlenecked Attentive Neural Processes [71.18817592128207]
LBANP(Latent Bottlenecked Attentive Neural Processs)について LBANPは、コンテキストデータポイントの数によらず、クエリ処理の複雑さを持つ。 LBANPは,メタ回帰,画像補完,コンテキスト的マルチアームバンディットに関する最先端技術と競合する結果が得られることを示す。
論文参考訳（メタデータ） (2022-11-15T19:21:41Z)
TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。 TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文参考訳（メタデータ） (2022-07-05T07:17:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。