論文の概要: LLMTabBench: Evaluating LLMs on Binary Tabular Classification From Zero to Few Shots
- arxiv url: http://arxiv.org/abs/2605.24417v1
- Date: Sat, 23 May 2026 06:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.044352
- Title: LLMTabBench: Evaluating LLMs on Binary Tabular Classification From Zero to Few Shots
- Title(参考訳): LLMTabBench: バイナリタブラリ分類におけるLLMの評価
- Authors: Daria Grushina, Kseniia Kuvshinova, Alina Kostromina, Aziz Temirkhanov, Mile Mitrovic, Dmitry Simakov,
- Abstract要約: 大きな言語モデル(LLM)は、タスク記述から直接ゼロと少数ショットのインコンテキスト学習を通じて、より柔軟な代替手段を提供することができる。
LLMはゼロショット設定で非常に競争力があり、たとえこれらのモデルが少数ショットの例にアクセスできたとしても、代替モデルよりも優れている。
LLMのパフォーマンスが低下し、少数の例では効果が低下するデータ複雑性しきい値が存在する。
- 参考スコア(独自算出の注目度): 0.9056483898540896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised classification for tabular data remains a core machine learning task, yet its reliance on large labeled datasets limits applicability in data-scarce domains. For such few-shot scenarios, specialized methods like TabPFN - a state-of-the-art Prior-Data Fitted Network - have set a high standard by leveraging large-scale synthetic pretraining, though they still require a context of labeled examples to function. In contrast, Large Language Models (LLMs) could offer a more flexible alternative via zero- and few-shot in-context learning directly from task descriptions, but their performance on tabular data remains inconsistent and poorly understood. We introduce LLMTabBench, a benchmark designed to systematically evaluate LLMs for tabular classification under data-scarce conditions. LLMTabBench explicitly probes (i) how LLM prior knowledge interacts with in-context information (task descriptions and few-shot examples), and (ii) how model performance scales with increasing data complexity, using both real-world and controlled synthetic datasets. Our findings include: (1) LLMs are highly competitive in zero-shot settings and can outperform alternative models, even when those models have access to few-shot examples; (2) incorporating additional few-shot examples can conflict with LLM prior knowledge, limiting or even degrading performance; and (3) there is a data complexity threshold beyond which LLMs' performance declines and few-shot examples become less effective. Together, these findings reveal fundamental constraints of in-context learning for tabular data and provide practical guidance for deploying LLMs in low-data regimes.
- Abstract(参考訳): 表付きデータの監視された分類は、依然として機械学習のコアタスクであるが、大きなラベル付きデータセットに依存しているため、データスカースドメインの適用性が制限されている。
このような少数のシナリオでは、最先端のプリデータフィットネットワークであるTabPFNのような特殊なメソッドが、大規模な合成事前トレーニングを活用することで、高い標準を設定している。
対照的に、LLM(Large Language Models)は、タスク記述から直接ゼロと少数ショットのインコンテキスト学習を通じて、より柔軟な代替手段を提供することができるが、表形式のデータに対するパフォーマンスは相容れないし、理解が不十分である。
データスカース条件下での表型分類のためのLCMを体系的に評価するベンチマークであるLLMTabBenchを紹介する。
LLMTabBenchが明示的にプローブする
一 LLM の事前知識が文脈内情報(タスク記述及び少数例)とどのように相互作用するか、及び
i) 実世界のデータと制御された合成データセットを用いて,データ複雑性の増加に伴うモデルパフォーマンスのスケールアップ方法。
その結果, (1) LLMはゼロショット環境での競争力が高く, 少数ショットの例にアクセスできる場合でも, 代替モデルよりも優れ, (2) LLMの事前知識と矛盾し, 性能が低下したり, あるいは低下したりする場合, (3) LLMの性能が低下し, 少数ショットの例では効果が低下するデータ複雑性しきい値が存在することがわかった。
これらの結果から,表型データに対する文脈内学習の基本的な制約が明らかとなり,低データ体制にLLMをデプロイするための実践的なガイダンスが得られた。
関連論文リスト
- Can LLM Annotations Replace User Clicks for Learning to Rank? [112.2254432364736]
大規模な教師付きデータは最新のランキングモデルのトレーニングには不可欠だが、高品質な人的アノテーションの取得にはコストがかかる。
クリックデータは低コストの代替手段として広く使われており、近年の大規模言語モデル(LLM)の発展に伴い、LLMベースの関連アノテーションも有望なアノテーションとして登場した。
公開データセットであるTianGong-STと、産業データセットであるBaidu-Clickの両方の実験は、クリック管理モデルが高周波クエリでより良いパフォーマンスを示すことを示している。
データスケジューリングと周波数対応多目的学習という2つのトレーニング戦略を検討し、両方の監視信号を統合する。
論文 参考訳(メタデータ) (2025-11-10T02:26:14Z) - LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。
In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。
本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文 参考訳(メタデータ) (2025-04-21T11:11:07Z) - Scalable In-Context Learning on Tabular Data via Retrieval-Augmented Large Language Models [15.603556124006479]
拡張性のあるTabICLのための検索拡張言語モデルを提案する。
提案手法では,LLMのための検索誘導型命令チューニングと合わせて,検索モジュールをカスタマイズする。
これにより、LLMはより大きなデータセットを効果的に活用することができ、69の広く認識されているデータセット間での大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-02-05T13:16:41Z) - LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation [50.375567142250446]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。
我々は,信頼度に基づく重み付け投票によって出力を集約した,数発のプロンプト学習 LLM ツリーの "フォレスト" を導入した新しいフレームワーク LLM-Forest を提案する。
このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、特徴と値の粒度の両方で高品質な関連項目を識別する。
論文 参考訳(メタデータ) (2024-10-28T20:42:46Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning [35.03338699349037]
本稿では,機能エンジニアとして大規模言語モデルを用いる新しい文脈内学習フレームワークFeatLLMを提案する。
FeatLLMは高品質なルールを生成し、TabLLMやSTUNTなどよりも大幅に(平均で10%)優れている。
論文 参考訳(メタデータ) (2024-04-15T06:26:08Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。