論文の概要: Towards Benchmarking Foundation Models for Tabular Data With Text
- arxiv url: http://arxiv.org/abs/2507.07829v1
- Date: Thu, 10 Jul 2025 15:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.454847
- Title: Towards Benchmarking Foundation Models for Tabular Data With Text
- Title(参考訳): テキストによる語彙データのためのベンチマーク基礎モデルに向けて
- Authors: Martin Mráz, Breenda Das, Anshul Gupta, Lennart Purucker, Frank Hutter,
- Abstract要約: 本稿では,テキストを従来のパイプラインに組み込むための,シンプルで効果的なアブレーション方式の戦略を提案する。
我々は、実世界のデータセットのコレクションを意味のあるテキスト機能で手作業でキュレートすることで、最先端の表層基盤モデルがどのようにテキストデータを扱うことができるかをベンチマークする。
- 参考スコア(独自算出の注目度): 36.3195231571412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models for tabular data are rapidly evolving, with increasing interest in extending them to support additional modalities such as free-text features. However, existing benchmarks for tabular data rarely include textual columns, and identifying real-world tabular datasets with semantically rich text features is non-trivial. We propose a series of simple yet effective ablation-style strategies for incorporating text into conventional tabular pipelines. Moreover, we benchmark how state-of-the-art tabular foundation models can handle textual data by manually curating a collection of real-world tabular datasets with meaningful textual features. Our study is an important step towards improving benchmarking of foundation models for tabular data with text.
- Abstract(参考訳): 表データの基盤モデルは急速に進化しており、自由テキスト機能のような追加のモダリティをサポートするよう拡張することへの関心が高まっている。
しかし、既存の表データのベンチマークにはテキスト列がほとんど含まれておらず、意味的にリッチなテキスト機能を持つ実世界の表のデータセットを特定することは簡単ではない。
本稿では,従来のグラフパイプラインにテキストを組み込むための,シンプルで効果的なアブレーション方式の戦略を提案する。
さらに,現在最先端の表層モデルが,現実の表層データセットのコレクションを有意義なテキスト機能で手作業でキュレートすることで,テキストデータを処理する方法のベンチマークを行う。
本研究は,テキストを用いた表データの基盤モデルのベンチマーク改善に向けた重要なステップである。
関連論文リスト
- TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations [14.12892960275563]
Tabular Foundation Modelsは、現実世界の知識を活用し、多様なデータセットをまたいで一般化することができる。
セマンティックなターゲット認識表現を備えた基礎的タブラリモデルであるTabSTARを紹介する。
論文 参考訳(メタデータ) (2025-05-23T17:34:28Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Exploring the Robustness of Language Models for Tabular Question Answering via Attention Analysis [7.486549276995143]
大規模言語モデル(LLM)は、特定の訓練なしにテーブル理解タスクに取り組むことが示されている。
In-context Learning (ICL), model scale, instruction tune, and domain bias が Tabular QA (TQA) に与える影響を考察する。
摂動による注意分散の変化と性能低下との間には強い相関関係がみられた。
論文 参考訳(メタデータ) (2024-06-18T15:41:15Z) - PixT3: Pixel-based Table-To-Text Generation [66.96636025277536]
本稿では,線形化と入力サイズ制限の課題を克服するマルチモーダルテーブル・トゥ・テキスト・モデルPixT3を提案する。
ToTToとLogic2Textベンチマークの実験では、PixT3はテキストのみで動作するジェネレータよりも競争力があり、優れていることが示されている。
論文 参考訳(メタデータ) (2023-11-16T11:32:47Z) - Stylized Data-to-Text Generation: A Case Study in the E-Commerce Domain [53.22419717434372]
本稿では,特定のスタイルに従ってコヒーレントテキストを生成することを目的とした新しいタスク,すなわちスタイル化されたデータ・テキスト生成を提案する。
このタスクは、生成されたテキストのロジック、構造化されていないスタイル参照、バイアスのあるトレーニングサンプルという3つの課題のため、簡単ではない。
本稿では,論理計画型データ埋め込み,マスク型スタイル埋め込み,非バイアス型スタイリングテキスト生成の3つのコンポーネントからなる,新しいスタイル付きデータ・テキスト生成モデルであるStyleD2Tを提案する。
論文 参考訳(メタデータ) (2023-05-05T03:02:41Z) - Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。
ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。
第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文 参考訳(メタデータ) (2022-11-23T00:04:57Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。