TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering
Abstractの概要
TopBenchは、回答がテーブルに明示的に格納されておらず、履歴パターンから推論する必要があるテーブル質問応答のためのベンチマークを導入している。このベンチマークは、ヘルスケア、金融、日常コンサルティングの3つのドメインにわたる35のソーステーブルから構築された779サンプルを含み、単一点予測、意思決定、処置効果分析、ランキング/フィルタリングの4つのサブタスクに整理されている。本論文は、これらの問題を自然言語クエリからの意図認識と潜在的に大規模なテーブルに対する予測的推論の両方を必要とするものとして定式化し、テキストのみおよびエージェント型コード実行の両方の設定でモデルを評価している。著者らはまた、自由形式の推論と構造化出力に対するタスク固有の評価手順を提案し、判定者の幻覚を低減するための検証ステップを組み込んでいる。
新規性
本論文の主な新規性は、標準的なテーブル検索や集約を超え、自然言語リクエストから未観測の結果を推論することをモデルに要求する、暗黙的予測テーブルQAの定義とベンチマーク化にある。また、意図認識と予測モデリングを分離している点、および複数の予測タスクタイプ(単一点予測、意思決定、処置効果分析、ランキング/フィルタリング)を1つのベンチマークと評価フレームワーク内でカバーしている点も特徴的である。
成果
実験の結果、現在のLLMはこれらのタスクにおいて依然として脆弱であり、ほとんどのスコアが0.60未満であることが示された。Gemini 3 Flashが最も強力なモデルの一つであり、エージェント設定で単一点精度0.66、意思決定および処置効果スコア0.65に達した一方、ランキング/フィルタリングは最良F1が0.58、最低NMAEが0.26(DeepSeek-V3.2-Instruct)と依然として困難であった。意味的ヒントはいくつかのケースで意図の不整合を修正でき(例:Qwen3-Instructの単一点が0.43から0.56に向上)、ゴールド構造化入力を与えた予測専用アンサンブルは最良のエンドツーエンドエージェントモデルを上回り(単一点予測で0.76対0.66)、予測モデリング能力が依然として主要なボトルネックであることを示している。
論文の注目点
- TopBenchは、モデルが明示的なテーブルエントリを検索するのではなく欠落した結果を推論する必要がある暗黙的予測テーブルQAを対象としており、既存のTQAベンチマークのギャップに対処している。
- このベンチマークは3つのドメインと4つの予測サブタスクにわたる35テーブルからの779サンプルで構成され、自然言語推論と構造化ファイル出力の両方をカバーする評価を行っている。
- 実証結果は、意図認識と予測モデリングの両方が現在のLLMの弱点であることを示しており、ゴールド入力を用いたタスク固有の予測パイプラインがエンドツーエンドエージェントを大幅に上回ることができる。