Fugu-MT 論文翻訳(概要): Why In-Context Learning Transformers are Tabular Data Classifiers

論文の概要: Why In-Context Learning Transformers are Tabular Data Classifiers

arxiv url: http://arxiv.org/abs/2405.13396v1
Date: Wed, 22 May 2024 07:13:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 01:04:57.069788
Title: Why In-Context Learning Transformers are Tabular Data Classifiers
Title（参考訳）: 文脈内学習変換器がタブラリデータ分類器である理由
Authors: Felix den Breejen, Sangmin Bae, Stephen Cha, Se-Young Yun,
Abstract要約: ICL変換器は事前学習中に複雑な決定境界を生成できることを示す。我々は、オリジナルのTabPFN合成データセットジェネレータと森林データセットジェネレータの両方で事前訓練されたICL変換器であるTabForestPFNを作成する。
参考スコア（独自算出の注目度）: 22.33649426762373
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recently introduced TabPFN pretrains an In-Context Learning (ICL) transformer on synthetic data to perform tabular data classification. As synthetic data does not share features or labels with real-world data, the underlying mechanism that contributes to the success of this method remains unclear. This study provides an explanation by demonstrating that ICL-transformers acquire the ability to create complex decision boundaries during pretraining. To validate our claim, we develop a novel forest dataset generator which creates datasets that are unrealistic, but have complex decision boundaries. Our experiments confirm the effectiveness of ICL-transformers pretrained on this data. Furthermore, we create TabForestPFN, the ICL-transformer pretrained on both the original TabPFN synthetic dataset generator and our forest dataset generator. By fine-tuning this model, we reach the current state-of-the-art on tabular data classification. Code is available at https://github.com/FelixdenBreejen/TabForestPFN.
Abstract（参考訳）: 最近導入されたTabPFNは、合成データにICL(In-Context Learning)変換器を事前訓練して、表形式のデータ分類を行う。合成データは実世界のデータと特徴やラベルを共有しないため、この手法の成功に寄与する基盤となるメカニズムはいまだ不明である。本研究は、ICL変換器が事前学習中に複雑な決定境界を生成できることを実証することによって説明する。筆者らの主張を検証するため,非現実的だが複雑な決定境界を持つデータセットを生成する新しい森林データセット生成装置を開発した。このデータを用いたICL変換器の有効性を実験により検証した。さらに、原型であるTabPFN合成データセットジェネレータと森林データセットジェネレータの両方で事前訓練されたICL変換器であるTabForestPFNを作成する。このモデルを微調整することで、表形式のデータ分類の最先端に到達する。コードはhttps://github.com/FelixdenBreejen/TabForestPFNで公開されている。

関連論文リスト

Zero-shot Meta-learning for Tabular Prediction Tasks with Adversarially Pre-trained Transformer [2.1677183904102257]
本稿では、実世界のデータセットを事前学習することなく、表形式の予測タスクでゼロショットメタ学習を行うことのできるAdversarially Pre-trained Transformer(APT)を提案する。 APTは、異なる合成データセットで意図的にモデルに挑戦する敵対的な合成データエージェントで事前訓練されている。筆者らのフレームワークは,データセットの特徴をフィルタリングすることなく,小さな分類タスクにおける最先端のパフォーマンスと一致していることを示す。
論文参考訳（メタデータ） (2025-02-06T23:58:11Z)
Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes [135.68092471784516]
本稿では,大規模言語モデルと勾配ブースト決定木を融合させる,シンプルで軽量な手法を提案する。融合法を LLM-Boost と PFN-Boost と命名した。多数のベースラインとアンサンブルアルゴリズムに対して最先端の性能を示す。
論文参考訳（メタデータ） (2025-02-04T19:30:41Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Table Transformers for Imputing Textual Attributes [15.823533688884105]
本稿では,TTITA(Imputing Textual Attributes)のためのテーブルトランスフォーマー(Table Transformer)という新しいエンドツーエンドアプローチを提案する。提案手法は,リカレントニューラルネットワークやLlama2などのベースラインモデルよりも優れた性能を示す。マルチタスク学習を組み込んで、不均一な列を同時にインプットし、テキストインプットの性能を高める。
論文参考訳（メタデータ） (2024-08-04T19:54:12Z)
In-Context In-Context Learning with Transformer Neural Processes [50.57807892496024]
In-context In-context Learning pseudo-token TNP (ICICL-TNP) を開発した。 ICICL-TNPは、データポイントとデータセットのセットの両方を条件付けし、コンテキスト内での学習を可能にする。複数の実験において,文脈内学習の重要性とICICL-TNPの有効性を実証した。
論文参考訳（メタデータ） (2024-06-19T12:26:36Z)
TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks [90.00817095558094]
事前データ対応ネットワーク(PFN)は、事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを実現する。我々は、大規模なデータセットをより小さな学習コンテキストに圧縮するPFNのパラメータ効率の良い微調整戦略であるTuneTablesを紹介した。我々は、TuneTablesを解釈可能性ツールとして使用することができ、公平性目標を最適化することでバイアスを軽減することができることを示した。
論文参考訳（メタデータ） (2024-02-17T00:02:23Z)
In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。 ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文参考訳（メタデータ） (2024-02-10T15:23:45Z)
TabMT: Generating tabular data with masked transformers [0.0]
Masked Transformerは生成モデルや分類器として驚くほど効果的です。この研究は、多様なアプリケーションドメインのための合成データ生成におけるトランスフォーマーベースモデルの探索に寄与する。
論文参考訳（メタデータ） (2023-12-11T03:28:11Z)
Training-Free Generalization on Heterogeneous Tabular Data via Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文参考訳（メタデータ） (2023-10-31T18:03:54Z)
Exploring the Benefits of Differentially Private Pre-training and Parameter-Efficient Fine-tuning for Table Transformers [56.00476706550681]
Table Transformer(TabTransformer)は最先端のニューラルネットワークモデルであり、差分プライバシ(DP)はデータのプライバシを確保する上で不可欠なコンポーネントである。本稿では,これら2つの側面を組み合わせ,伝達学習のシナリオで組み合わせることのメリットについて考察する。
論文参考訳（メタデータ） (2023-09-12T19:08:26Z)
Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。 TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。 LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文参考訳（メタデータ） (2023-05-16T06:37:38Z)
REaLTabFormer: Generating Realistic Relational and Tabular Data using Transformers [0.0]
本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
論文参考訳（メタデータ） (2023-02-04T00:32:50Z)
TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。 TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文参考訳（メタデータ） (2022-07-05T07:17:43Z)
Deep Transformer Networks for Time Series Classification: The NPP Safety Case [59.20947681019466]
時間依存nppシミュレーションデータをモデル化するために、教師付き学習方法でトランスフォーマと呼ばれる高度なテンポラルニューラルネットワークを使用する。トランスはシーケンシャルデータの特性を学習し、テストデータセット上で約99%の分類精度で有望な性能が得られる。
論文参考訳（メタデータ） (2021-04-09T14:26:25Z)
Tabular Transformers for Modeling Multivariate Time Series [30.717890753132824]
タブラルデータセットは、データサイエンスの応用においてユビキタスである。その重要性から、最先端のディープラーニングアルゴリズムを適用して、その可能性を完全に解き放つことは自然なようだ。本稿では,その階層構造を活用可能なグラフ時系列を表すニューラルネットワークモデルを提案する。学習した表現を不正検出と合成データ生成に使用する合成クレジットカードトランザクションデータセットと、学習したエンコーディングを大気汚染物質濃度を予測するための実際の公害データセットの2つのデータセットで実証する。
論文参考訳（メタデータ） (2020-11-03T16:58:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。