論文の概要: PTab: Using the Pre-trained Language Model for Modeling Tabular Data
- arxiv url: http://arxiv.org/abs/2209.08060v1
- Date: Thu, 15 Sep 2022 08:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 11:57:15.454981
- Title: PTab: Using the Pre-trained Language Model for Modeling Tabular Data
- Title(参考訳): ptab: 事前学習された言語モデルを用いた表データモデリング
- Authors: Guang Liu and Jie Yang and Ledell Wu
- Abstract要約: 近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
- 参考スコア(独自算出の注目度): 5.791972449406902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data is the foundation of the information age and has been
extensively studied. Recent studies show that neural-based models are effective
in learning contextual representation for tabular data. The learning of an
effective contextual representation requires meaningful features and a large
amount of data. However, current methods often fail to properly learn a
contextual representation from the features without semantic information. In
addition, it's intractable to enlarge the training set through mixed tabular
datasets due to the difference between datasets. To address these problems, we
propose a novel framework PTab, using the Pre-trained language model to model
Tabular data. PTab learns a contextual representation of tabular data through a
three-stage processing: Modality Transformation(MT), Masked-Language
Fine-tuning(MF), and Classification Fine-tuning(CF). We initialize our model
with a pre-trained Model (PTM) which contains semantic information learned from
the large-scale language data. Consequently, contextual representation can be
learned effectively during the fine-tuning stages. In addition, we can
naturally mix the textualized tabular data to enlarge the training set to
further improve representation learning. We evaluate PTab on eight popular
tabular classification datasets. Experimental results show that our method has
achieved a better average AUC score in supervised settings compared to the
state-of-the-art baselines(e.g. XGBoost), and outperforms counterpart methods
under semi-supervised settings. We present visualization results that show PTab
has well instance-based interpretability.
- Abstract(参考訳): タブラルデータは情報時代の基礎であり、広く研究されている。
近年の研究では、ニューラルネットワークモデルが表データの文脈表現の学習に有効であることが示されている。
効果的な文脈表現の学習には意味のある特徴と大量のデータが必要である。
しかし、現在の手法は意味情報のない特徴から文脈表現を適切に学習できないことが多い。
さらに、データセット間の差異により、混合表型データセットを通じてトレーニングセットを拡大することは難題である。
これらの問題に対処するために,事前学習言語モデルを用いてタブラルデータをモデル化する新しいフレームワークPTabを提案する。
PTabは3段階の処理(MT)、Masked-Language Fine-tuning(MF)、分類ファインチューニング(CF))によって表データのコンテキスト表現を学習する。
我々は,大規模言語データから学習した意味情報を含む事前学習モデル(PTM)でモデルを初期化する。
これにより、微調整段階において文脈表現を効果的に学習することができる。
さらに、テキスト化された表データを組み合わせて、トレーニングセットを拡大することで、表現学習をさらに改善することができる。
PTabを8つの一般的な表型分類データセットで評価する。
実験の結果,本手法は最先端のベースライン (xgboost など) と比較して,教師あり設定で平均 auc スコアが向上し,半教師あり設定で比較した。
PTabのインスタンスベースの解釈性が良好であることを示す可視化結果を示す。
関連論文リスト
- TabDPT: Scaling Tabular Foundation Models [20.00390825519329]
実データによる性能向上と一般化の方法を示す。
本モデルでは,CC18(分類)およびCTR23(回帰)ベンチマークの最先端性能を実現する。
TabDPTはまた、モデルのサイズと利用可能なデータの量の両方が増加するにつれて、強力なスケーリングを示す。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - TabMDA: Tabular Manifold Data Augmentation for Any Classifier using Transformers with In-context Subsetting [23.461204546005387]
TabMDAは、表データの多様体データ拡張のための新しい方法である。
これは、TabPFNのような事前訓練されたインコンテキストモデルを利用して、データを埋め込みスペースにマッピングする。
我々は,TabMDAを5つの標準分類器上で評価し,各種データセット間での大幅な性能向上を観察した。
論文 参考訳(メタデータ) (2024-06-03T21:51:13Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Scaling TabPFN: Sketching and Feature Selection for Tabular Prior-Data
Fitted Networks [31.82225213006849]
タブラル分類は伝統的に教師付きアルゴリズムに依存しており、トレーニングデータを用いて予測モデルのパラメータを推定する。
近年、TabPFNのようなPFN(Presideed Data Fitted Networks)は、コンテキスト内の表データの分類に成功している。
このようなモデルは非常に有望であるが、実際のデータに適用可能であるのは計算規模が限られているためである。
論文 参考訳(メタデータ) (2023-11-17T16:04:27Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Dynamic Prompt Learning via Policy Gradient for Semi-structured
Mathematical Reasoning [150.17907456113537]
数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。
我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。
本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
論文 参考訳(メタデータ) (2022-09-29T08:01:04Z) - TabText: A Flexible and Contextual Approach to Tabular Data
Representation [4.116980088382032]
TabTextは、表のデータ構造からコンテキスト情報を抽出する処理フレームワークである。
TabTextは、標準機械学習モデルの平均AUC性能と最悪のAUC性能を最大6%改善することを示す。
論文 参考訳(メタデータ) (2022-06-21T13:28:57Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。