論文の概要: TableEval: A Real-World Benchmark for Complex, Multilingual, and Multi-Structured Table Question Answering
- arxiv url: http://arxiv.org/abs/2506.03949v2
- Date: Wed, 11 Jun 2025 15:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.255074
- Title: TableEval: A Real-World Benchmark for Complex, Multilingual, and Multi-Structured Table Question Answering
- Title(参考訳): TableEval: 複雑で多言語でマルチ構造化されたテーブル質問回答のための実世界のベンチマーク
- Authors: Junnan Zhu, Jingyi Wang, Bohan Yu, Xiaoyu Wu, Junbo Li, Lei Wang, Nan Xu,
- Abstract要約: 既存のTableQAベンチマークは、単純なフラットテーブルにフォーカスし、データ漏洩に悩まされることがしばしばある。
現実的なTableQAタスク上でLLMを評価するために設計された新しいベンチマークであるTableEvalを紹介する。
データ漏洩のリスクを最小限に抑えるため、最近の実世界の文書からすべてのデータを収集する。
- 参考スコア(独自算出の注目度): 18.173773939709733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have shown impressive progress in natural language processing. However, they still face significant challenges in TableQA, where real-world complexities such as diverse table structures, multilingual data, and domain-specific reasoning are crucial. Existing TableQA benchmarks are often limited by their focus on simple flat tables and suffer from data leakage. Furthermore, most benchmarks are monolingual and fail to capture the cross-lingual and cross-domain variability in practical applications. To address these limitations, we introduce TableEval, a new benchmark designed to evaluate LLMs on realistic TableQA tasks. Specifically, TableEval includes tables with various structures (such as concise, hierarchical, and nested tables) collected from four domains (including government, finance, academia, and industry reports). Besides, TableEval features cross-lingual scenarios with tables in Simplified Chinese, Traditional Chinese, and English. To minimize the risk of data leakage, we collect all data from recent real-world documents. Considering that existing TableQA metrics fail to capture semantic accuracy, we further propose SEAT, a new evaluation framework that assesses the alignment between model responses and reference answers at the sub-question level. Experimental results have shown that SEAT achieves high agreement with human judgment. Extensive experiments on TableEval reveal critical gaps in the ability of state-of-the-art LLMs to handle these complex, real-world TableQA tasks, offering insights for future improvements. We make our dataset available here: https://github.com/wenge-research/TableEval.
- Abstract(参考訳): LLMは自然言語処理において顕著な進歩を見せている。
しかし、テーブル構造、多言語データ、ドメイン固有の推論といった現実世界の複雑さが不可欠であるTableQAでは、依然として大きな課題に直面している。
既存のTableQAベンチマークは、単純なフラットテーブルにフォーカスし、データ漏洩に悩まされることがしばしばある。
さらに、ほとんどのベンチマークはモノリンガルであり、実用的なアプリケーションにおけるクロスランガルとクロスドメインの変数をキャプチャできない。
これらの制約に対処するため、現実的なTableQAタスク上でLLMを評価するために設計された新しいベンチマークであるTableEvalを紹介する。
具体的には、TableEvalには、4つのドメイン(政府、金融、アカデミック、業界レポートなど)から収集されたさまざまな構造(簡潔、階層、ネストされたテーブルなど)のテーブルが含まれている。
さらに、TableEvalは、簡体字中国語、伝統中国語、英語の表を持つ言語横断のシナリオを特徴としている。
データ漏洩のリスクを最小限に抑えるため、最近の実世界の文書からすべてのデータを収集する。
既存のTableQAメトリクスがセマンティックな精度を捉えることができないことを考慮し、サブクエストレベルでモデル応答と参照応答のアライメントを評価する新しい評価フレームワークSEATを提案する。
実験の結果,SEATは人的判断と高い一致を示した。
TableEvalの大規模な実験は、これらの複雑な現実世界のTableQAタスクを処理し、将来の改善の洞察を提供する最先端のLLMの能力に重大なギャップがあることを明らかにしている。
データセットは、https://github.com/wenge-research/TableEval.com/で利用可能です。
関連論文リスト
- Benchmarking Table Comprehension In The Wild [9.224698222634789]
TableQuestは、LLM(Large Language Models)の全体的なテーブル理解能力を評価するために設計された新しいベンチマークである。
我々は7つの最先端モデルを用いて実験を行い、事実の特定に妥当な精度にもかかわらず、より洗練された推論や多段階の計算を行うために必要な場合には、しばしばフェールすることを示した。
論文 参考訳(メタデータ) (2024-12-13T05:52:37Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。
予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。
表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文 参考訳(メタデータ) (2024-10-04T16:26:12Z) - HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies [9.09415727445941]
本稿では,この課題に対する潜在的な解決法として,HiddenTablesと呼ばれる協調ゲームを提案する。
エージェントがテーブルQAタスクを解く能力を評価するコード生成「r」と「Oracleウィンドウ」の間で「HiddenTables」が再生される。
複雑なクエリを一般化および実行できないLCMの集合性を実証する多種多様なテーブルの集合について明らかな実験を行う。
論文 参考訳(メタデータ) (2024-06-16T04:53:29Z) - Multimodal Table Understanding [26.652797853893233]
直感的な視覚情報を使ってテーブルを直接理解する方法は、より実用的なアプリケーションを開発する上で極めて重要かつ緊急の課題である。
そこで我々は,様々なテーブル関連要求に対して,モデルが正しい応答を生成する必要がある,新しい問題であるマルチモーダルテーブル理解を提案する。
汎用マルチモーダル大言語モデル(MLLM)であるTable-LLaVAを開発した。
論文 参考訳(メタデータ) (2024-06-12T11:27:03Z) - Large Language Model for Table Processing: A Survey [18.32332372134988]
本調査では,テーブル関連タスクの概要について概観する。
テーブル質問応答やスプレッドシート操作やテーブルデータ分析といった新しいフィールドなど、従来のタスクをカバーしています。
論文 参考訳(メタデータ) (2024-02-04T00:47:53Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - TableQAKit: A Comprehensive and Practical Toolkit for Table-based
Question Answering [23.412691101965414]
TableQAKitは、TableQA専用に設計された最初の総合ツールキットである。
TableQAKitは、ビジュアル操作を含むインタラクティブなインターフェースと、使いやすい包括的なデータを備えたオープンソースである。
論文 参考訳(メタデータ) (2023-10-23T16:33:23Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。