論文の概要: TabGemma: Text-Based Tabular ICL via LLM using Continued Pretraining and Retrieval
- arxiv url: http://arxiv.org/abs/2511.03570v1
- Date: Wed, 05 Nov 2025 15:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.473105
- Title: TabGemma: Text-Based Tabular ICL via LLM using Continued Pretraining and Retrieval
- Title(参考訳): TabGemma: 継続事前学習と検索を用いたLLMによるテキストベースタブラルICL
- Authors: Günther Schindler, Maximilian Schambach, Michael Medek, Sam Thelin,
- Abstract要約: 本稿では,行をシーケンスとして扱うスキーマに依存しないインコンテキスト学習ツールであるTabGemmaを紹介する。
推測には、コンパクトなn-gramベースの検索を用いて、128kのウィンドウに収まる情報的例を選択する。
回帰に関しては、小さなサンプルサイズで競合するが、データが大きくなるにつれて従来のアプローチに追随する。
- 参考スコア(独自算出の注目度): 1.4995278030955144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study LLMs for tabular prediction with mixed text, numeric, and categorical fields. We introduce TabGemma, a schema-agnostic in-context learner that treats rows as sequences and tackles two practical hurdles when adapting pretrained LLMs for tabular predictions: unstable numeric tokenization and limited context size. We propose to canonicalize numbers via signed scientific notation and continue pretraining of a 12B Gemma 3 model with a target imputation objective using a large-scale real world dataset. For inference, we use a compact n-gram-based retrieval to select informative exemplars that fit within a 128k-token window. On semantically rich benchmarks, TabGemma establishes a new state of the art on classification across low- and high-data regimes and improves monotonically with more context rows. For regression, it is competitive at small sample sizes but trails conventional approaches as data grows. Our results show that LLMs can be effective tabular in-context learners on highly semantic tasks when paired with dedicated numeric handling and context retrieval, while motivating further advances in numeric modeling and long-context scaling.
- Abstract(参考訳): 混合テキスト,数値,カテゴリーフィールドを用いた表型予測のためのLCMについて検討する。
本稿では,列を列として扱うスキーマ非依存のインコンテキスト学習システムであるTabGemmaを紹介し,テーブル型予測に事前学習したLLMを適用する際の2つの実践的ハードルに対処する:不安定な数値トークン化と制限付きコンテキストサイズ。
我々は,署名付き科学記法を用いて数値を正規化し,大規模実世界のデータセットを用いて目標計算対象を持つ12B Gemma 3モデルの事前学習を続けることを提案する。
推測には、コンパクトなn-gramベースの検索を用いて、128kのウィンドウに収まる情報的例を選択する。
セマンティックにリッチなベンチマークでは、TabGemmaはローデータおよびハイデータレシエーションの分類に関する新しい最先端を確立し、よりコンテキスト行で単調に改善する。
回帰に関しては、小さなサンプルサイズで競合するが、データが大きくなるにつれて従来のアプローチに追随する。
この結果から,LLMは,専用数値処理やコンテキスト検索と組み合わせることで,意味度の高いタスクを表わすのに有効であることを示すとともに,数値モデリングや長期コンテキストスケーリングのさらなる進歩を動機付けていることがわかった。
関連論文リスト
- Training Large Recommendation Models via Graph-Language Token Alignment [53.3142545812349]
本稿では,グラフ言語トークンアライメントによる大規模推薦モデルのトレーニングを行う新しいフレームワークを提案する。
インタラクショングラフからアイテムとユーザノードを事前訓練されたLLMトークンにアライメントすることで、GLTAはLLMの推論能力を効果的に活用する。
さらに、エンドツーエンドのアイテム予測のためのトークンアライメントを最適化するために、GLLM(Graph-Language Logits Matching)を導入する。
論文 参考訳(メタデータ) (2025-02-26T02:19:10Z) - TabGen-ICL: Residual-Aware In-Context Example Selection for Tabular Data Generation [38.08438831075632]
TabGen-ICLは反復的に動作し、現在生成されたサンプルと真のデータ分布の間の残余を表す実サンプルのサブセットを取得する。
5つの実世界のデータセットの実験により、TabGen-ICLはランダム選択戦略を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-23T02:51:58Z) - Scalable In-Context Learning on Tabular Data via Retrieval-Augmented Large Language Models [15.603556124006479]
拡張性のあるTabICLのための検索拡張言語モデルを提案する。
提案手法では,LLMのための検索誘導型命令チューニングと合わせて,検索モジュールをカスタマイズする。
これにより、LLMはより大きなデータセットを効果的に活用することができ、69の広く認識されているデータセット間での大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-02-05T13:16:41Z) - Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.282770819829913]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文 参考訳(メタデータ) (2024-03-29T14:41:21Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。