論文の概要: ConTextTab: A Semantics-Aware Tabular In-Context Learner
- arxiv url: http://arxiv.org/abs/2506.10707v1
- Date: Thu, 12 Jun 2025 13:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.759363
- Title: ConTextTab: A Semantics-Aware Tabular In-Context Learner
- Title(参考訳): ConTextTab: セマンティックなタブラルインコンテキスト学習ツール
- Authors: Marco Spinaci, Marek Polewczyk, Maximilian Schambach, Sam Thelin,
- Abstract要約: ConTextTabを導入し、セマンティック理解とアライメントをテーブルネイティブなICLフレームワークに統合する。
我々のモデルは、意味的にリッチなCARTEベンチマークで新しい標準を設定しながら、幅広いベンチマークでSOTAと競合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular in-context learning (ICL) has recently achieved state-of-the-art (SOTA) performance on several tabular prediction tasks. Previously restricted to classification problems on small tables, recent advances such as TabPFN and TabICL have extended its use to larger datasets. While being architecturally efficient and well-adapted to tabular data structures, current table-native ICL architectures, being trained exclusively on synthetic data, do not fully leverage the rich semantics and world knowledge contained in real-world tabular data. On another end of this spectrum, tabular ICL models based on pretrained large language models such as TabuLa-8B integrate deep semantic understanding and world knowledge but are only able to make use of a small amount of context due to inherent architectural limitations. With the aim to combine the best of both these worlds, we introduce ConTextTab, integrating semantic understanding and alignment into a table-native ICL framework. By employing specialized embeddings for different data modalities and by training on large-scale real-world tabular data, our model is competitive with SOTA across a broad set of benchmarks while setting a new standard on the semantically rich CARTE benchmark.
- Abstract(参考訳): タブラル・イン・コンテクスト・ラーニング(ICL)は、最近、複数の表形式の予測タスクで最先端(SOTA)のパフォーマンスを達成した。
以前は小さなテーブル上の分類の問題に制限されていたが、TabPFNやTabICLといった最近の進歩により、より大きなデータセットに拡張された。
アーキテクチャ上は効率的であり、表形式のデータ構造に順応するが、現在のテーブルネイティブなICLアーキテクチャは、合成データに特化して訓練されているため、現実世界の表形式のデータに含まれる豊富なセマンティクスや世界の知識を十分に活用することはできない。
このスペクトルの別の端で、TabuLa-8Bのような事前訓練された大規模言語モデルに基づく表型ICLモデルは、深い意味理解と世界知識を統合するが、固有のアーキテクチャ上の制限のため、少数のコンテキストしか利用できない。
これら2つの世界の長所を組み合わせることを目的として、意味的理解とアライメントをテーブルネイティブなICLフレームワークに統合するConTextTabを紹介します。
異なるデータモダリティに特別な埋め込みを導入し、大規模な実世界の表グラフデータをトレーニングすることで、我々のモデルは、セマンティックにリッチなCARTEベンチマークに新しい標準を設定しながら、幅広いベンチマークでSOTAと競合する。
関連論文リスト
- Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations [14.12892960275563]
Tabular Foundation Modelsは、現実世界の知識を活用し、多様なデータセットをまたいで一般化することができる。
セマンティックなターゲット認識表現を備えた基礎的タブラリモデルであるTabSTARを紹介する。
論文 参考訳(メタデータ) (2025-05-23T17:34:28Z) - Make Still Further Progress: Chain of Thoughts for Tabular Data Leaderboard [27.224577475861214]
機械学習の基本的なデータフォーマットであるタブラルデータは、競争や現実世界のアプリケーションで主に利用されている。
本研究では,大規模言語モデルを活用したテキスト内アンサンブルフレームワークを提案する。
提案手法は,各テストインスタンスの周囲のコンテキストを,その近傍と外部モデルのプールからの予測を用いて構築する。
論文 参考訳(メタデータ) (2025-05-19T17:52:58Z) - Scalable In-Context Learning on Tabular Data via Retrieval-Augmented Large Language Models [15.603556124006479]
拡張性のあるTabICLのための検索拡張言語モデルを提案する。
提案手法では,LLMのための検索誘導型命令チューニングと合わせて,検索モジュールをカスタマイズする。
これにより、LLMはより大きなデータセットを効果的に活用することができ、69の広く認識されているデータセット間での大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-02-05T13:16:41Z) - TabDPT: Scaling Tabular Foundation Models [20.00390825519329]
実データによる性能向上と一般化の方法を示す。
本モデルでは,CC18(分類)およびCTR23(回帰)ベンチマークの最先端性能を実現する。
TabDPTはまた、モデルのサイズと利用可能なデータの量の両方が増加するにつれて、強力なスケーリングを示す。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - PixT3: Pixel-based Table-To-Text Generation [66.96636025277536]
本稿では,線形化と入力サイズ制限の課題を克服するマルチモーダルテーブル・トゥ・テキスト・モデルPixT3を提案する。
ToTToとLogic2Textベンチマークの実験では、PixT3はテキストのみで動作するジェネレータよりも競争力があり、優れていることが示されている。
論文 参考訳(メタデータ) (2023-11-16T11:32:47Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。