論文の概要: Towards Universal Tabular Embeddings: A Benchmark Across Data Tasks
- arxiv url: http://arxiv.org/abs/2604.21696v1
- Date: Thu, 23 Apr 2026 14:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.580146
- Title: Towards Universal Tabular Embeddings: A Benchmark Across Data Tasks
- Title(参考訳): Universal Tabular Embeddings: データタスク間のベンチマーク
- Authors: Liane Vogel, Kavitha Srinivas, Niharika D'Souza, Sola Shirai, Oktie Hassanzadeh, Horst Samulowitz,
- Abstract要約: タブラル表現学習モデルは、タスクやドメイン間で転送されるデータの普遍的な表現を学習することを目的としている。
既存の手法は、直接比較が難しいタスク固有の設定で評価されることが多い。
TEmBedは、4つの表現レベルにまたがる埋め込みを体系的に評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 15.117602507724726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular foundation models aim to learn universal representations of tabular data that transfer across tasks and domains, enabling applications such as table retrieval, semantic search and table-based prediction. Despite the growing number of such models, it remains unclear which approach works best in practice, as existing methods are often evaluated under task-specific settings that make direct comparison difficult. To address this, we introduce TEmBed, the Tabular Embedding Test Bed, a comprehensive benchmark for systematically evaluating tabular embeddings across four representation levels: cell, row, column, and table. Evaluating a diverse set of tabular representation learning models, we show that which model to use depends on the task and representation level. Our results offer practical guidance for selecting tabular embeddings in real-world applications and lay the groundwork for developing more general-purpose tabular representation models.
- Abstract(参考訳): Tabular foundation modelは、タスクやドメイン間で転送される表データの普遍的な表現を学習することを目的としており、テーブル検索、セマンティック検索、テーブルベースの予測などのアプリケーションを可能にする。
このようなモデルの増加にもかかわらず、既存の手法は直接比較が難しいタスク固有の設定で評価されることがしばしばあるため、どの手法が実際に最もうまく機能するかは定かではない。
これを解決するためにTEmBed, Tabular Embedding Test Bedを紹介した。これは4つの表現レベル(セル, 行, 列, テーブル)にまたがるグラフ埋め込みを体系的に評価するための総合ベンチマークである。
表表表現学習モデルの多種多様な集合を評価することで,どのモデルを使うかがタスクや表現レベルに依存することを示す。
本研究は,実世界のアプリケーションにおいて,表層埋め込みを選択するための実用的なガイダンスを提供するとともに,より汎用的な表層表現モデルを構築するための基盤となる。
関連論文リスト
- Universal Embeddings of Tabular Data [0.0]
リレーショナルデータベースにおけるタブラリデータは、産業データのかなりの部分を占めている。
本稿では,予め定義された目標を満たさずにダウンストリームタスクを実行するための,タスク非依存な表データの埋め込みを普遍的に生成するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-08T11:45:29Z) - Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。
ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。
既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文 参考訳(メタデータ) (2025-04-17T17:58:23Z) - A Closer Look at Deep Learning Methods on Tabular Datasets [78.61845513154502]
広い範囲にまたがる300以上のデータセットの集合であるTALENTについて広範な研究を行った。
我々の評価では、アンサンブルは木に基づくアプローチとニューラルアプローチの両方に効果があることが示されている。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model
in Data Science [16.384705926693073]
本研究は,データサイエンスにおける表上での予測を容易にするために,事前学習方法論の能力を拡張することを目的とする。
テーブルを一様に処理するために設計されたUniTabEは、特定のテーブル構造によって課される制約を無視する。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから正確に収集した約13Bサンプルからなる拡張データセットをキュレートした。
論文 参考訳(メタデータ) (2023-07-18T13:28:31Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。