論文の概要: TabularFM: An Open Framework For Tabular Foundational Models
- arxiv url: http://arxiv.org/abs/2406.09837v2
- Date: Tue, 18 Jun 2024 03:36:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 12:01:13.715377
- Title: TabularFM: An Open Framework For Tabular Foundational Models
- Title(参考訳): TabularFM: Tabular Foundational Modelsのためのオープンフレームワーク
- Authors: Quan M. Tran, Suong N. Hoang, Lam M. Nguyen, Dzung Phan, Hoang Thanh Lam,
- Abstract要約: 基礎モデル(FM)は大量のデータから一般化されたパターンを学習することができる。
FMに関するほとんどの研究は、主にテキストや画像のような非構造化データや、時系列のような半構造化データに焦点を当てている。
このギャップに対応するために、構造化データのためのFMを開発する最先端の手法を取り入れたTabularFMというフレームワークを導入する。
- 参考スコア(独自算出の注目度): 12.027087949876893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundational models (FMs), pretrained on extensive datasets using self-supervised techniques, are capable of learning generalized patterns from large amounts of data. This reduces the need for extensive labeled datasets for each new task, saving both time and resources by leveraging the broad knowledge base established during pretraining. Most research on FMs has primarily focused on unstructured data, such as text and images, or semi-structured data, like time-series. However, there has been limited attention to structured data, such as tabular data, which, despite its prevalence, remains under-studied due to a lack of clean datasets and insufficient research on the transferability of FMs for various tabular data tasks. In response to this gap, we introduce a framework called TabularFM, which incorporates state-of-the-art methods for developing FMs specifically for tabular data. This includes variations of neural architectures such as GANs, VAEs, and Transformers. We have curated a million of tabular datasets and released cleaned versions to facilitate the development of tabular FMs. We pretrained FMs on this curated data, benchmarked various learning methods on these datasets, and released the pretrained models along with leaderboards for future comparative studies. Our fully open-sourced system provides a comprehensive analysis of the transferability of tabular FMs. By releasing these datasets, pretrained models, and leaderboards, we aim to enhance the validity and usability of tabular FMs in the near future.
- Abstract(参考訳): ファンデーショナルモデル(FM)は、自己教師付き技術を用いて広範囲のデータセットで事前訓練され、大量のデータから一般化されたパターンを学習することができる。
これにより、新しいタスクごとにラベル付きデータセットを追加する必要がなくなり、事前トレーニング中に確立された幅広い知識ベースを活用することで、時間とリソースを節約できる。
FMに関するほとんどの研究は、主にテキストや画像のような非構造化データや、時系列のような半構造化データに焦点を当てている。
しかし、その頻度にもかかわらず、クリーンデータセットの欠如や、様々な表型データタスクにおけるFMの転送可能性に関する研究が不十分なため、表型データのような構造化データに対する関心は低い。
このギャップに対応するために,表データに特化してFMを開発するための最先端の手法を取り入れたTabularFMというフレームワークを導入する。
これには、GAN、VAE、Transformerなどのニューラルアーキテクチャのバリエーションが含まれる。
我々は、100万の表付きデータセットをキュレートし、表付きFMの開発を容易にするために、クリーン化されたバージョンをリリースした。
我々は、このキュレートされたデータ上でFMを事前訓練し、これらのデータセット上で様々な学習方法をベンチマークし、将来の比較研究のためのリーダーボードとともに事前訓練されたモデルをリリースした。
我々の完全オープンソースシステムは、表状FMの転送可能性に関する包括的分析を提供する。
これらのデータセット、事前訓練されたモデル、およびリーダーボードをリリースすることにより、近い将来、表型FMの有効性とユーザビリティを高めることを目指している。
関連論文リスト
- TabReD: A Benchmark of Tabular Machine Learning in-the-Wild [30.922069185335246]
機械学習の学術ベンチマークでは、業界グレードのデータセットが不足していることが示される。
幅広いドメインをカバーする8つの業界グレードデータセットの集合であるTabReDを紹介する。
時間に基づくデータ分割の評価は、学術ベンチマークにおいてより一般的なランダム分割の評価と比較して、異なる手法のランク付けにつながることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:55:31Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Synergizing Foundation Models and Federated Learning: A Survey [23.416321895575507]
本稿では,フェデレートラーニング(FL)とファンデーションモデル(FM)の融合の可能性と課題について論じる。
FLは、さまざまな参加者からのデータ可用性の障壁を破る、共同学習パラダイムである。
プライバシを保護しながら、分散データセットを使用して、幅広いドメイン固有のタスクにFMをカスタマイズし、適応する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-18T17:58:09Z) - Why Tabular Foundation Models Should Be a Research Priority [65.75744962286538]
タブラルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。
私たちは現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発を始める時が来たと信じています。
論文 参考訳(メタデータ) (2024-05-02T10:05:16Z) - Tabular Few-Shot Generalization Across Heterogeneous Feature Spaces [43.67453625260335]
異種特徴空間を持つデータセット間での知識共有を含む数ショット学習のための新しいアプローチを提案する。
FLATはデータセットとその個々の列の低次元埋め込みを学習し、それまで見つからなかったデータセットへの知識伝達と一般化を容易にする。
デコーダネットワークは、グラフ注意ネットワークとして実装された予測対象ネットワークをパラメータ化して、表形式のデータセットの不均一性に対応する。
論文 参考訳(メタデータ) (2023-11-16T17:45:59Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。