論文の概要: The Illusion of Generalization: Re-examining Tabular Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2602.04031v1
- Date: Tue, 03 Feb 2026 21:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.284166
- Title: The Illusion of Generalization: Re-examining Tabular Language Model Evaluation
- Title(参考訳): 一般化のイラシオン: 言語モデルの再検討
- Authors: Aditya Gorla, Ratish Puduppully,
- Abstract要約: 代用タブラ言語モデル(TLM)としてのTabula-8Bの再評価
バイナリとカテゴリの分類は、多数クラスのベースラインに対するほぼゼロの中央値リフトを達成する。
最上位のデータセットは広範囲にわたる汚染を示す。
- 参考スコア(独自算出の注目度): 4.2150811248811655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular Language Models (TLMs) have been claimed to achieve emergent generalization for tabular prediction. We conduct a systematic re-evaluation of Tabula-8B as a representative TLM, utilizing 165 datasets from the UniPredict benchmark. Our investigation reveals three findings. First, binary and categorical classification achieve near-zero median lift over majority-class baselines and strong aggregate performance is driven entirely by quartile classification tasks. Second, top-performing datasets exhibit pervasive contamination, including complete train-test overlap and task-level leakage that evades standard deduplication. Third, instruction-tuning without tabular exposure recovers 92.2% of standard classification performance and on quartile classification, format familiarity closes 71.3% of the gap with the residual attributable to contaminated datasets. These findings suggest claimed generalization likely reflects evaluation artifacts rather than learned tabular reasoning. We conclude with recommendations for strengthening TLM evaluation.
- Abstract(参考訳): タブラル言語モデル (TLM) は、表型予測の創発的な一般化を実現すると主張されている。
我々は、UniPredictベンチマークから165のデータセットを用いて、Tabula-8Bを代表的TLMとして体系的に再評価する。
私たちの調査では3つの結果が明らかになった。
第一に、二分分類と分類分類は、多数類ベースラインに対するほぼゼロの中央値上昇を実現し、強い集約性能は、すべて質素な分類タスクによって駆動される。
第2に、トップパフォーマンスデータセットは、完全なトレインテストオーバーラップや、標準の重複を回避するタスクレベルのリークなど、広範囲にわたる汚染を示す。
第3に、表の露出のない命令チューニングは、標準的な分類性能の92.2%を回復し、質素分類では、汚染されたデータセットに起因する残余とのギャップの71.3%を閉じる。
これらの結果は、一般化は学習された表の推論よりも評価成果を反映している可能性が高いことを示唆している。
TLM評価を強化するための勧告で締めくくります。
関連論文リスト
- Learning Consistent Taxonomic Classification through Hierarchical Reasoning [61.372270953201955]
分類学分類における葉レベル精度と階層的整合性を改善するための2段階階層型推論フレームワークを提案する。
我々のフレームワークはQwen2.5-VL-7Bモデルで実装され、葉レベルと階層的整合性の両方で元の72Bを10%以上上回っている。
論文 参考訳(メタデータ) (2026-01-21T03:00:00Z) - Evaluating Latent Knowledge of Public Tabular Datasets in Large Language Models [11.991760171708796]
大規模言語モデル(LLM)は、構造化データに対する推論能力について、ますます評価されている。
本研究では,強い意味的手がかりを含むデータセットにのみ,汚染効果が現れることを示す。
LLMの明らかな能力は、部分的には真の一般化ではなく、一般に利用可能なデータセットの記憶を反映している可能性がある。
論文 参考訳(メタデータ) (2025-10-23T08:51:14Z) - Towards Fair In-Context Learning with Tabular Foundation Models [6.4989916051093815]
トランスフォーマーを用いたインコンテクスト学習(ICL)におけるフェアネスの最初の研究について述べる。
最近提案された3つの基盤モデル(TabPFNv2、TabICL、TabDPT)をベンチマークデータセットで評価した。
実験の結果、不確実性に基づく戦略は、予測精度に最小限の影響を伴って、グループフェアネスの指標を一貫して改善することが示された。
論文 参考訳(メタデータ) (2025-05-14T15:53:14Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Re-TACRED: Addressing Shortcomings of the TACRED Dataset [5.820381428297218]
TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。
このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。
しかし、彼らはまだ大規模なテキストコーポラで外部の知識と教師なしの事前訓練を利用しながら大きなエラー率を示しています。
論文 参考訳(メタデータ) (2021-04-16T22:55:11Z) - Margin-Based Transfer Bounds for Meta Learning with Deep Feature
Embedding [67.09827634481712]
我々は、マージン理論と統計学習理論を活用し、メタラーニングに基づくマルチクラス分類(MLMC)のための3つのマージンベース転送境界を確立する。
これらの境界は、与えられた将来のタスクに対する分類アルゴリズムの予測誤差を、前のタスクの有限個の平均的な経験誤差で推定できることを示している。
3つのベンチマークの実験は、これらのマージンベースのモデルが依然として競争力のある性能を達成していることを示している。
論文 参考訳(メタデータ) (2020-12-02T23:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。