論文の概要: Comparing Task-Agnostic Embedding Models for Tabular Data
- arxiv url: http://arxiv.org/abs/2511.14276v1
- Date: Tue, 18 Nov 2025 09:10:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.028384
- Title: Comparing Task-Agnostic Embedding Models for Tabular Data
- Title(参考訳): タブラルデータに対するタスク非依存埋め込みモデルの比較
- Authors: Frederik Hoppe, Lars Kleinemeier, Astrid Franz, Udo Göbel,
- Abstract要約: この研究は特に表現学習、すなわち伝達可能なタスクに依存しない埋め込みに焦点を当てている。
テーブルライザ機能は、最近の基礎モデルよりも最大3桁高速で、同等または優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 1.6479389738270018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent foundation models for tabular data achieve strong task-specific performance via in-context learning. Nevertheless, they focus on direct prediction by encapsulating both representation learning and task-specific inference inside a single, resource-intensive network. This work specifically focuses on representation learning, i.e., on transferable, task-agnostic embeddings. We systematically evaluate task-agnostic representations from tabular foundation models (TabPFN and TabICL) alongside with classical feature engineering (TableVectorizer) across a variety of application tasks as outlier detection (ADBench) and supervised learning (TabArena Lite). We find that simple TableVectorizer features achieve comparable or superior performance while being up to three orders of magnitude faster than tabular foundation models. The code is available at https://github.com/ContactSoftwareAI/TabEmbedBench.
- Abstract(参考訳): 近年の表型データの基本モデルでは,コンテキスト内学習によるタスク固有性能が向上している。
それでも、表現学習とタスク固有の推論の両方を単一のリソース集約ネットワーク内にカプセル化することで、直接予測に焦点を当てている。
この研究は特に表現学習、すなわち伝達可能なタスクに依存しない埋め込みに焦点を当てている。
表層基礎モデル(TabPFNとTabICL)と古典的特徴工学(TableVectorizer)から外乱検出(ADBench)や教師あり学習(TabArena Lite)といった様々なアプリケーションタスクのタスク非依存表現を体系的に評価した。
単純な TableVectorizer 機能は,表層ベースモデルよりも最大3桁高速で,同等あるいは優れたパフォーマンスを実現している。
コードはhttps://github.com/ContactSoftwareAI/TabEmbedBench.comで公開されている。
関連論文リスト
- nanoTabPFN: A Lightweight and Educational Reimplementation of TabPFN [78.62756717376563]
NanoTabPFNはTabPFN v2アーキテクチャとそれに対応するトレーニングループの軽量実装である。
1つのGPUでの事前トレーニングから1分以内に、従来の機械学習ベースラインに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-05T16:52:51Z) - TabSTAR: A Tabular Foundation Model for Tabular Data with Text Fields [12.860878027211522]
Tabular Foundation Modelsは、現実世界の知識を活用し、多様なデータセットをまたいで一般化することができる。
セマンティックなターゲット認識表現を備えたタブラル基礎モデルであるTabSTARを紹介する。
論文 参考訳(メタデータ) (2025-05-23T17:34:28Z) - Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。
ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。
既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文 参考訳(メタデータ) (2025-04-17T17:58:23Z) - A Closer Look at TabPFN v2: Understanding Its Strengths and Extending Its Capabilities [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、さまざまな下流データセット間で、前例のないコンテキスト内学習性能を達成する。
本研究では,TabPFN v2が属性トークンをランダムに入力しても属性関係を推測可能であることを示す。
我々はTabPFN v2の制限がテスト時間分割・コンテキスト戦略によって対処できることを実証した。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。
この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。
実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文 参考訳(メタデータ) (2024-06-03T13:54:05Z) - Unlocking the Transferability of Tokens in Deep Models for Tabular Data [67.11727608815636]
トレーニング済みのディープニューラルネットワークの微調整は、さまざまな機械学習タスクにおいて成功しているパラダイムとなっている。
本稿では,特徴トークンの品質向上を目的としたTabTokenを提案する。
トークンを規則化し、機能内および機能間のセマンティクスをキャプチャする、対照的な目的を導入します。
論文 参考訳(メタデータ) (2023-10-23T17:53:09Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。