論文の概要: Table Foundation Models: on knowledge pre-training for tabular learning
- arxiv url: http://arxiv.org/abs/2505.14415v1
- Date: Tue, 20 May 2025 14:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.354303
- Title: Table Foundation Models: on knowledge pre-training for tabular learning
- Title(参考訳): 表基礎モデル--表学習のための知識事前学習について
- Authors: Myung Jun Kim, Félix Lefebvre, Gaëtan Brison, Alexandre Perez-Lebel, Gaël Varoquaux,
- Abstract要約: TARTEは、文字列を使ってテーブルを知識に富んだベクトル表現に変換する基礎モデルである。
大規模なリレーショナルデータに基づいて事前トレーニングされたTARTEは、後続の学習を容易にする表現を、ほとんど追加コストなしで提供する。
- 参考スコア(独自算出の注目度): 47.485516405457595
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Table foundation models bring high hopes to data science: pre-trained on tabular data to embark knowledge or priors, they should facilitate downstream tasks on tables. One specific challenge is that of data semantics: numerical entries take their meaning from context, e.g., column name. Pre-trained neural networks that jointly model column names and table entries have recently boosted prediction accuracy. While these models outline the promises of world knowledge to interpret table values, they lack the convenience of popular foundation models in text or vision. Indeed, they must be fine-tuned to bring benefits, come with sizeable computation costs, and cannot easily be reused or combined with other architectures. Here we introduce TARTE, a foundation model that transforms tables to knowledge-enhanced vector representations using the string to capture semantics. Pre-trained on large relational data, TARTE yields representations that facilitate subsequent learning with little additional cost. These representations can be fine-tuned or combined with other learners, giving models that push the state-of-the-art prediction performance and improve the prediction/computation performance trade-off. Specialized to a task or a domain, TARTE gives domain-specific representations that facilitate further learning. Our study demonstrates an effective approach to knowledge pre-training for tabular learning.
- Abstract(参考訳): テーブルファウンデーションモデルは、データサイエンスに高い期待をもたらします – 表データの事前トレーニングによって、知識や事前の開始、テーブル上の下流タスクの促進などです。
数値エントリは、コンテキスト、例えば列名から意味を取る。
列名とテーブルエントリを共同でモデル化する事前学習ニューラルネットワークは、最近、予測精度を向上した。
これらのモデルは、表の値を解釈する世界の知識の約束を概説するが、テキストやビジョンにおける一般的な基礎モデルの利便性は欠如している。
実際、それらは利点をもたらすために微調整され、大きな計算コストが伴い、簡単に再利用したり、他のアーキテクチャと組み合わせたりすることができない。
本稿では,テーブルを知識に富んだベクトル表現に変換する基盤モデルであるTARTEを紹介する。
大規模なリレーショナルデータに基づいて事前トレーニングされたTARTEは、後続の学習を容易にする表現を、ほとんど追加コストなしで提供する。
これらの表現は他の学習者と微調整したり組み合わせたりすることができ、最先端の予測性能を押し上げ、予測/計算性能のトレードオフを改善するモデルを提供する。
タスクやドメインに特化して、TARTEはさらなる学習を容易にするドメイン固有の表現を提供する。
本研究は,表型学習のための知識事前学習への効果的なアプローチを示す。
関連論文リスト
- Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。
ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。
既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文 参考訳(メタデータ) (2025-04-17T17:58:23Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Pre-training and Diagnosing Knowledge Base Completion Models [58.07183284468881]
我々は,事実の集合から他の集合への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。
主な貢献は、構造化されていないテキストから収集された事実の大規模事前学習を利用する方法である。
得られた事前学習モデルをよりよく理解するために,オープン知識ベースコンプリートのための事前学習モデルの解析のための新しいデータセットを導入する。
論文 参考訳(メタデータ) (2024-01-27T15:20:43Z) - MediTab: Scaling Medical Tabular Data Predictors via Data Consolidation, Enrichment, and Refinement [44.693325083735424]
患者の健康リスク予測などの医療応用において,タブラルデータ予測が採用されている。
以前の予測子は、手動でキュレートされた小さなデータセットでトレーニングされることが多い。
論文 参考訳(メタデータ) (2023-05-20T03:37:09Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z) - Arithmetic-Based Pretraining -- Improving Numeracy of Pretrained
Language Models [67.48894919842576]
最先端の事前訓練された言語モデルは、数式を必要とするタスクにアウト・オブ・ボックスを適用すると、その能力より劣る傾向にある。
本稿では,Arithmetic-Based Pretrainingと呼ばれる拡張事前学習手法を提案する。
本実験は,算数性の向上を必要とする3つのタスクにおいて,算術的事前学習の有効性を示す。
論文 参考訳(メタデータ) (2022-05-13T16:10:13Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。