論文の概要: STRABLE: Benchmarking Tabular Machine Learning with Strings
- arxiv url: http://arxiv.org/abs/2605.12292v1
- Date: Tue, 12 May 2026 15:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.981992
- Title: STRABLE: Benchmarking Tabular Machine Learning with Strings
- Title(参考訳): STRABLE: 文字列によるタブラル機械学習のベンチマーク
- Authors: Gioia Blayer, Myung Jun Kim, Félix Lefebvre, Lennart Purucker, Alan Arazi, Eilam Shapira, Roi Reichart, Frank Hutter, Marine Le Morvan, David Holzmüller, Gaël Varoquaux,
- Abstract要約: STRABLEは108のテーブルからなるベンチマークコーパスであり、様々なアプリケーションフィールドにまたがる文字列や数値を使った実世界の学習問題である。
445個のパイプラインを評価し,文字列を用いた表型学習の大規模な実証的研究を行った。
野生のほとんどのテーブルは分類的に支配的であるため、単純な文字列埋め込みと組み合わせた先進的な表型学習者は、計算コストを低くして優れた予測を達成できる。
- 参考スコア(独自算出の注目度): 53.03295517218137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarking tabular learning has revealed the benefit of dedicated architectures, pushing the state of the art. But real-world tables often contain string entries, beyond numbers, and these settings have been understudied due to a lack of a solid benchmarking suite. They lead to new research questions: Are dedicated learners needed, with end-to-end modeling of strings and numbers? Or does it suffice to encode strings as numbers, as with a categorical encoding? And if so, do the resulting tables resemble numerical tabular data, calling for the same learners? To enable these studies, we contribute STRABLE, a benchmarking corpus of 108 tables, all real-world learning problems with strings and numbers across diverse application fields. We run the first large-scale empirical study of tabular learning with strings, evaluating 445 pipelines. These pipelines span end-to-end architectures and modular pipelines, where strings are first encoded, then post-processed, and finally passed to a tabular learner. We find that, because most tables in the wild are categorical-dominant, advanced tabular learners paired with simple string embeddings achieve good predictions at low computational cost. On free-text-dominant tables, large LLM encoders become competitive. Their performance also appears sensitive to post-processing, with differences across LLM families. Finally, we show that STRABLE is a good set of tables to study "string tabular" learning as it leads to generalizable pipeline rankings that are close to the oracle rankings. We thus establish STRABLE as a foundation for research on tabular learning with strings, an important yet understudied area.
- Abstract(参考訳): 表型学習のベンチマークにより、専門アーキテクチャのメリットが明らかになり、最先端のアーキテクチャが推進された。
しかし、実世界のテーブルは、数値以外の文字列エントリを含むことが多く、これらの設定は、しっかりとしたベンチマークスイートが欠如しているため、過小評価されている。
専用の学習者が必要か、文字列と数字のエンドツーエンドモデリングが必要か?
それとも、分類的なエンコーディングのように、文字列を数値としてエンコードするのに十分だろうか?
もしそうなら、結果のテーブルは数値的な表データに似ていて、同じ学習者を呼びます。
これらの研究を可能にするため、STRABLEは108のテーブルからなるベンチマークコーパスであり、様々なアプリケーション分野にまたがる文字列や数値による実世界の学習問題である。
445個のパイプラインを評価し,文字列を用いた表型学習の大規模な実証的研究を行った。
これらのパイプラインはエンドツーエンドのアーキテクチャとモジュラーパイプラインにまたがっており、まず文字列がエンコードされ、次に後処理され、最終的に表の学習者に渡される。
野生のほとんどのテーブルは分類的に支配的であるため、単純な文字列の埋め込みと組み合わせた先進的な表型学習者は、計算コストを低く抑えることができる。
自由テキスト支配テーブルでは、大きなLLMエンコーダが競合する。
それらの性能は後処理にも敏感で、LLMファミリーによって異なる。
最後に、STRABLEは、オーラクルランキングに近い一般化可能なパイプラインランキングにつながるため、"ストリング表型"学習を研究するためのテーブルセットであることを示す。
そこで本研究では,文字列を用いた表層学習研究の基盤としてSTRABLEを確立した。
関連論文リスト
- TabGemma: Text-Based Tabular ICL via LLM using Continued Pretraining and Retrieval [1.4995278030955144]
本稿では,行をシーケンスとして扱うスキーマに依存しないインコンテキスト学習ツールであるTabGemmaを紹介する。
推測には、コンパクトなn-gramベースの検索を用いて、128kのウィンドウに収まる情報的例を選択する。
回帰に関しては、小さなサンプルサイズで競合するが、データが大きくなるにつれて従来のアプローチに追随する。
論文 参考訳(メタデータ) (2025-11-05T15:51:03Z) - Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。
P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文 参考訳(メタデータ) (2024-08-09T11:30:52Z) - TabuLa: Harnessing Language Models for Tabular Data Synthesis [4.539846270369207]
Tabulaは、大きな言語モデル(LLM)の構造を利用する表形式のデータシンセサイザーである。
State-of-the-art (SOTA) の LLM とは異なり、Tabula は元々自然言語処理用に設計されたトレーニング済みのウェイトを捨てている。
実験により,Tabulaは現在のSOTA法と比較して優れた合成データユーティリティを実現していることが示された。
論文 参考訳(メタデータ) (2023-10-19T13:50:56Z) - Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。
重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。