論文の概要: TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations
- arxiv url: http://arxiv.org/abs/2505.18125v1
- Date: Fri, 23 May 2025 17:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.252199
- Title: TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations
- Title(参考訳): TabSTAR: セマンティックなターゲット認識表現を備えた基礎的タブラルモデル
- Authors: Alan Arazi, Eilam Shapira, Roi Reichart,
- Abstract要約: Tabular Foundation Modelsは、現実世界の知識を活用し、多様なデータセットをまたいで一般化することができる。
セマンティックなターゲット認識表現を備えた基礎的タブラリモデルであるTabSTARを紹介する。
- 参考スコア(独自算出の注目度): 14.12892960275563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While deep learning has achieved remarkable success across many domains, it has historically underperformed on tabular learning tasks, which remain dominated by gradient boosting decision trees (GBDTs). However, recent advancements are paving the way for Tabular Foundation Models, which can leverage real-world knowledge and generalize across diverse datasets, particularly when the data contains free-text. Although incorporating language model capabilities into tabular tasks has been explored, most existing methods utilize static, target-agnostic textual representations, limiting their effectiveness. We introduce TabSTAR: a Foundation Tabular Model with Semantically Target-Aware Representations. TabSTAR is designed to enable transfer learning on tabular data with textual features, with an architecture free of dataset-specific parameters. It unfreezes a pretrained text encoder and takes as input target tokens, which provide the model with the context needed to learn task-specific embeddings. TabSTAR achieves state-of-the-art performance for both medium- and large-sized datasets across known benchmarks of classification tasks with text features, and its pretraining phase exhibits scaling laws in the number of datasets, offering a pathway for further performance improvements.
- Abstract(参考訳): 深層学習は多くの領域で顕著な成功を収めてきたが、歴史的に表層学習のタスクでは性能が劣り、決定木(GBDT)の勾配が支配的であった。
しかし、Tarbular Foundation Modelsは、特にデータが自由テキストを含む場合、現実世界の知識を活用し、さまざまなデータセットをまたいで一般化することができる。
言語モデル機能を表型タスクに組み込む方法が検討されているが、既存のほとんどの手法では静的な目標に依存しないテキスト表現を使用し、その有効性を制限している。
セマンティックなターゲット認識表現を備えた基礎的タブラリモデルであるTabSTARを紹介する。
TabSTARは、データセット固有のパラメータを含まないアーキテクチャで、テキスト機能を備えた表データの転送学習を可能にするように設計されている。
事前訓練されたテキストエンコーダを凍結し、入力ターゲットトークンとして取り、タスク固有の埋め込みを学習するのに必要なコンテキストをモデルに提供する。
TabSTARは、テキスト機能を備えた既知の分類タスクのベンチマークにおいて、中規模と大規模両方のデータセットの最先端のパフォーマンスを実現している。
関連論文リスト
- Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。
ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。
既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文 参考訳(メタデータ) (2025-04-17T17:58:23Z) - A Closer Look at Deep Learning Methods on Tabular Datasets [52.50778536274327]
タブラルデータは、機械学習のさまざまな領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は最近、有望なパフォーマンスを実証した。
我々は,32種類の最先端の深部・木質の手法を比較し,その平均性能を複数の基準で評価した。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Unlocking the Transferability of Tokens in Deep Models for Tabular Data [67.11727608815636]
トレーニング済みのディープニューラルネットワークの微調整は、さまざまな機械学習タスクにおいて成功しているパラダイムとなっている。
本稿では,特徴トークンの品質向上を目的としたTabTokenを提案する。
トークンを規則化し、機能内および機能間のセマンティクスをキャプチャする、対照的な目的を導入します。
論文 参考訳(メタデータ) (2023-10-23T17:53:09Z) - From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models [18.219485459836285]
GTL(Generative Tabular Learning)は、大規模言語モデル(LLM)の高度な機能を統合する新しいフレームワークである。
我々の実証的研究は、GTLのスケーリングの振る舞いを厳格に分析し、384の公開データセットにまたがる。
GTL-LLaMA-2モデルは、多くの分類および回帰タスクにまたがる優れたゼロショットおよびインコンテキスト学習能力を示す。
論文 参考訳(メタデータ) (2023-10-11T09:37:38Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。