論文の概要: MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2506.05587v1
- Date: Thu, 05 Jun 2025 21:05:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.233618
- Title: MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark
- Title(参考訳): MMTU: 大規模マルチタスクテーブル理解と推論ベンチマーク
- Authors: Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish,
- Abstract要約: MMTUは、25の現実世界のテーブルタスクに30万以上の質問がある大規模なベンチマークである。
MMTUは、専門家レベルで実際のテーブルを理解し、推論し、操作できるモデルを包括的に評価するように設計されている。
MMTUはテーブル理解、推論、コーディングといった、今日のフロンティアモデルにとって困難なスキルの組み合わせを必要としています。
- 参考スコア(独自算出の注目度): 70.47478110973042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tables and table-based use cases play a crucial role in many important real-world applications, such as spreadsheets, databases, and computational notebooks, which traditionally require expert-level users like data engineers, data analysts, and database administrators to operate. Although LLMs have shown remarkable progress in working with tables (e.g., in spreadsheet and database copilot scenarios), comprehensive benchmarking of such capabilities remains limited. In contrast to an extensive and growing list of NLP benchmarks, evaluations of table-related tasks are scarce, and narrowly focus on tasks like NL-to-SQL and Table-QA, overlooking the broader spectrum of real-world tasks that professional users face. This gap limits our understanding and model progress in this important area. In this work, we introduce MMTU, a large-scale benchmark with over 30K questions across 25 real-world table tasks, designed to comprehensively evaluate models ability to understand, reason, and manipulate real tables at the expert-level. These tasks are drawn from decades' worth of computer science research on tabular data, with a focus on complex table tasks faced by professional users. We show that MMTU require a combination of skills -- including table understanding, reasoning, and coding -- that remain challenging for today's frontier models, where even frontier reasoning models like OpenAI o4-mini and DeepSeek R1 score only around 60%, suggesting significant room for improvement. We highlight key findings in our evaluation using MMTU and hope that this benchmark drives further advances in understanding and developing foundation models for structured data processing and analysis. Our code and data are available at https://github.com/MMTU-Benchmark/MMTU and https://huggingface.co/datasets/MMTU-benchmark/MMTU.
- Abstract(参考訳): 表やテーブルベースのユースケースは、スプレッドシート、データベース、計算ノートブックなど、多くの重要な現実世界アプリケーションにおいて重要な役割を果たす。
LLMはテーブル(スプレッドシートやデータベースの協調処理など)での作業において顕著な進歩を見せているが、そのような機能の包括的なベンチマークは依然として限られている。
NLPベンチマークの広範なリストとは対照的に、テーブル関連のタスクの評価は少なく、NL-to-SQLやTable-QAといったタスクに限定して、プロのユーザが直面する現実的なタスクの幅広い範囲を見渡している。
このギャップは、この重要な領域における理解とモデルの進歩を制限する。
本研究では,25の現実世界のテーブルタスクに30万以上の質問を掛けた大規模ベンチマークであるMMTUを紹介し,専門家レベルでの実際のテーブルの理解,推論,操作の能力を包括的に評価する。
これらのタスクは、プロのユーザが直面している複雑なテーブルタスクに焦点をあてて、表データに関する何十年ものコンピューターサイエンス研究から引き出されたものだ。
OpenAI o4-miniやDeepSeek R1のようなフロンティア推論モデルでさえ、60パーセントのスコアしかスコアを付けておらず、改善の余地がかなりあります。
我々は,MMTUを用いた評価における重要な知見を強調し,このベンチマークが構造化データ処理・解析の基礎モデル理解・開発にさらなる進歩をもたらすことを期待する。
私たちのコードとデータはhttps://github.com/MMTU-Benchmark/MMTUとhttps://huggingface.co/datasets/MMTU-benchmark/MMTUで利用可能です。
関連論文リスト
- NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables [32.9031799179503]
textscNeedleInATable (NIAT)は、各テーブルセルを針として扱い、セルの位置やルックアップ質問に基づいてターゲットセルを抽出するモデルを必要とする。
私たちのデータ、コード、モデルは、将来の研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2025-04-09T03:46:56Z) - Benchmarking Table Comprehension In The Wild [9.224698222634789]
TableQuestは、LLM(Large Language Models)の全体的なテーブル理解能力を評価するために設計された新しいベンチマークである。
我々は7つの最先端モデルを用いて実験を行い、事実の特定に妥当な精度にもかかわらず、より洗練された推論や多段階の計算を行うために必要な場合には、しばしばフェールすることを示した。
論文 参考訳(メタデータ) (2024-12-13T05:52:37Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - MATATA: Weakly Supervised End-to-End MAthematical Tool-Augmented Reasoning for Tabular Applications [0.9831489366502302]
この研究は、マルチステップ推論言語エージェントを訓練するための、新しい教師付きエンドツーエンドアプローチであるMATATAを導入している。
MATATAは3.8B/8BのSLMを強化するために各エージェントにアノテーションのないパラダイムを提供する。
実験により,MATATAはオープンソースSLMに基づく推論手法のうち,FinQAおよびTAT-QAの最先端化を実現していることが示された。
論文 参考訳(メタデータ) (2024-11-28T05:12:17Z) - TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning [61.14586098005874]
現在のLarge Language Models (LLM) は、テーブル構造を理解し、正確な数値推論を適用する能力に制限がある。
LLMと特殊なツールを統合するTART(Tool-Augmented Reasoning framework for Tables)を紹介した。
TARTには、正確なデータ表現を保証するテーブルフォーマッター、特定の計算ツールを開発するツールメーカー、説明可能性を維持するための説明ジェネレータの3つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2024-09-18T06:19:59Z) - TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。
この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。
実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文 参考訳(メタデータ) (2024-06-03T13:54:05Z) - Large Language Model for Table Processing: A Survey [18.32332372134988]
本調査では,テーブル関連タスクの概要について概観する。
テーブル質問応答やスプレッドシート操作やテーブルデータ分析といった新しいフィールドなど、従来のタスクをカバーしています。
論文 参考訳(メタデータ) (2024-02-04T00:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。