論文の概要: TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering
- arxiv url: http://arxiv.org/abs/2604.28076v1
- Date: Thu, 30 Apr 2026 16:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.196693
- Title: TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering
- Title(参考訳): TopBench: 質問回答に対する暗黙の予測と推論のためのベンチマーク
- Authors: An-Yang Ji, Jun-Peng Jiang, De-Chuan Zhan, Han-Jia Ye,
- Abstract要約: 現実世界のクエリの一般的なクラスは暗黙的に予測され、単に検索するのではなく、歴史的パターンから観測されていない回答を推測する必要がある。
これらのクエリには、潜在意図を認識することと、大規模テーブル上での信頼性の高い予測推論という2つの課題がある。
単点予測から意思決定,処理効果分析,複雑な推論に至るまで,4つのサブタスクにわたる779のサンプルからなるベンチマークであるTopBenchを紹介する。
- 参考スコア(独自算出の注目度): 80.93487993878836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have advanced Table Question Answering, where most queries can be answered by extracting information or simple aggregation. However, a common class of real-world queries is implicitly predictive, requiring the inference of unobserved answers from historical patterns rather than mere retrieval. These queries introduce two challenges: recognizing latent intent and reliable predictive reasoning over massive tables. To assess LLMs in such Tabular questiOn answering with implicit Prediction tasks, we introduce TopBench, a benchmark consisting of 779 samples across four sub-tasks, ranging from single-point prediction to decision making, treatment effect analysis, and complex filtering, requiring models to generate outputs spanning reasoning text and structured tables. We evaluate diverse models under both text-based and agentic workflows. Experiments reveal that current models often struggle with intent recognition, defaulting to just lookups. Deeper analysis identifies that accurate intent disambiguation serves as the prerequisite for leading these predictive behaviors. Furthermore, elevating the upper bound of prediction precision requires the integration of more sophisticated modeling or reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル (LLMs) にはテーブル質問応答があり、ほとんどのクエリは情報抽出や単純な集約によって答えられる。
しかし、現実世界のクエリの一般的なクラスは暗黙的に予測可能であり、単に検索するのではなく、歴史的パターンから観測されていない回答を推測する必要がある。
これらのクエリには、潜在意図を認識することと、大規模テーブル上での信頼性の高い予測推論という2つの課題がある。
暗黙的な予測タスクでLLMを評価するために、TopBenchを導入する。TopBenchは、単一点予測から意思決定、処理効果分析、複雑なフィルタリングまで、4つのサブタスクにまたがる779のサンプルからなるベンチマークで、推論テキストと構造化テーブルにまたがる出力を生成するモデルを必要とする。
テキストベースとエージェント型の両方のワークフローで多様なモデルを評価する。
実験によると、現在のモデルはインテント認識に苦しむことが多く、単にルックアップをデフォルトにしている。
より深い分析は、正確な意図の曖昧さがこれらの予測行動の先導の前提条件であることを示している。
さらに、予測精度の上限を高くするには、より洗練されたモデリングや推論機能を統合する必要がある。
関連論文リスト
- MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - Look Before you Leap: Estimating LLM Benchmark Scores from Descriptions [35.48753431700434]
テキストのみのパフォーマンス予測について検討し、タスク記述と意図した構成からモデルのスコアを推定する。
系統的な研究を支援するため,多種多様なタスク,ドメイン,メトリクスにまたがる記述性能対のコーパスであるPreCOGをキュレートする。
実験では、タスクは困難だが実現可能であり、高い信頼しきい値の精度サブセットで平均8.7の絶対誤差に達する。
論文 参考訳(メタデータ) (2025-09-25T01:02:27Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Reasoning-Aware Query-Focused Summarization over Multi-Table Data [1.325953054381901]
大規模言語モデル(LLM)を利用したエンドツーエンド生成フレームワークであるQueryTableSummarizer++を提案する。
本手法では,中間シリアライズステップの必要性を排除し,クエリ関連要約を直接生成する。
ベンチマークデータセットの実験では、QueryTableSummarizer++がBLEU、ROUGE、F1スコアで最先端のベースラインを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-12-12T06:04:31Z) - Prompt-fused framework for Inductive Logical Query Answering [31.736934787328156]
本稿では,Pro-QEという問合せ対応のプロンプトフューズフレームワークを提案する。
論理的クエリにおける未知のエンティティの問題に,我々のモデルがうまく対処できることが示される。
論文 参考訳(メタデータ) (2024-03-19T11:30:30Z) - Rethinking Complex Queries on Knowledge Graphs with Neural Link Predictors [58.340159346749964]
本稿では,証明可能な推論能力を備えた複雑なクエリを用いたエンドツーエンド学習を支援するニューラルシンボリック手法を提案する。
これまでに検討されていない10種類の新しいクエリを含む新しいデータセットを開発する。
提案手法は,新しいデータセットにおいて先行手法を著しく上回り,既存データセットにおける先行手法を同時に上回っている。
論文 参考訳(メタデータ) (2023-04-14T11:35:35Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z) - Interpretable by Design: Learning Predictors by Composing Interpretable
Queries [8.054701719767293]
機械学習アルゴリズムは設計によって解釈されるべきである。
正確な予測に必要なクエリの数を最小限に抑える。
視覚とNLPタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2022-07-03T02:40:34Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。