論文の概要: TReB: A Comprehensive Benchmark for Evaluating Table Reasoning Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.18421v1
- Date: Mon, 23 Jun 2025 09:02:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.914314
- Title: TReB: A Comprehensive Benchmark for Evaluating Table Reasoning Capabilities of Large Language Models
- Title(参考訳): TReB: 大規模言語モデルのテーブル推論能力を評価するための総合ベンチマーク
- Authors: Ce Li, Xiaofan Liu, Zhiyan Song, Ce Chi, Chen Zhao, Jingjing Yang, Zhendong Wang, Kexin Yang, Boshen Shi, Xing Wang, Chao Deng, Junlan Feng,
- Abstract要約: 表構造データによる推論は、大規模言語モデル(LLM)に重大な課題をもたらす
本稿では,表理解能力と表推論能力の両方を測定する総合的な表推論進化ベンチマークTReBを提案する。
我々は3つの異なる推論モード(TCoT, PoT, ICoT)でテーブル推論能力を頑健に測定する評価フレームワークを構築した。
- 参考スコア(独自算出の注目度): 30.26407735827857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The majority of data in businesses and industries is stored in tables, databases, and data warehouses. Reasoning with table-structured data poses significant challenges for large language models (LLMs) due to its hidden semantics, inherent complexity, and structured nature. One of these challenges is lacking an effective evaluation benchmark fairly reflecting the performances of LLMs on broad table reasoning abilities. In this paper, we fill in this gap, presenting a comprehensive table reasoning evolution benchmark, TReB, which measures both shallow table understanding abilities and deep table reasoning abilities, a total of 26 sub-tasks. We construct a high quality dataset through an iterative data processing procedure. We create an evaluation framework to robustly measure table reasoning capabilities with three distinct inference modes, TCoT, PoT and ICoT. Further, we benchmark over 20 state-of-the-art LLMs using this frame work and prove its effectiveness. Experimental results reveal that existing LLMs still have significant room for improvement in addressing the complex and real world Table related tasks. Both the dataset and evaluation framework are publicly available, with the dataset hosted on [HuggingFace] and the framework on [GitHub].
- Abstract(参考訳): 企業や産業におけるデータの大部分は、テーブル、データベース、データウェアハウスに保存されている。
テーブル構造データとの推論は、その隠されたセマンティクス、固有の複雑さ、構造化された性質のために、大きな言語モデル(LLM)に重大な課題をもたらす。
これらの課題の1つは、広範囲なテーブル推論能力に関するLLMの性能をかなり反映した効果的な評価ベンチマークが欠けていることである。
本稿では,このギャップを埋め,テーブル理解能力と深度テーブル推論能力の両方を測る包括的テーブル推論進化ベンチマークTReBを26のサブタスクで提示する。
我々は反復データ処理によって高品質なデータセットを構築する。
我々は3つの異なる推論モード(TCoT, PoT, ICoT)でテーブル推論能力を頑健に測定する評価フレームワークを構築した。
さらに,このフレームを用いて20以上の最先端LCMをベンチマークし,その有効性を検証した。
実験結果から,既存のLLMには,複雑かつ現実的なテーブル関連タスクに対処するための大きな改善の余地があることが判明した。
データセットと評価フレームワークはいずれも公開されており、データセットは[HuggingFace]に、フレームワークは [GitHub]にホストされている。
関連論文リスト
- RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis [16.572608600078922]
RealHiTBenchは、様々な入力フォーマットにわたるLarge Language Models (LLM)のパフォーマンスを評価するために設計されたベンチマークである。
LLMを25個使用した実験の結果,RealHiTBenchは本当に難しいベンチマークであることがわかった。
また、階層的なヘッダをツリー構造に整理するツリーベースのパイプラインであるTreeThinkerも開発しています。
論文 参考訳(メタデータ) (2025-06-16T12:19:08Z) - NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables [32.9031799179503]
textscNeedleInATable (NIAT)は、各テーブルセルを針として扱い、セルの位置やルックアップ質問に基づいてターゲットセルを抽出するモデルを必要とする。
私たちのデータ、コード、モデルは、将来の研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2025-04-09T03:46:56Z) - Better Think with Tables: Tabular Structures Enhance LLM Comprehension for Data-Analytics Requests [33.471112091886894]
大規模言語モデル(LLM)は、情報検索やデータ操作に関連するデータ分析要求に悩まされることが多い。
我々は、データ分析要求のために表構造をLCMに注入するThinking with Tablesを紹介した。
テーブルを提供すると平均的なパフォーマンスが40.29パーセント向上し、操作性やトークン効率が向上することを示す。
論文 参考訳(メタデータ) (2024-12-22T23:31:03Z) - Benchmarking Table Comprehension In The Wild [9.224698222634789]
TableQuestは、LLM(Large Language Models)の全体的なテーブル理解能力を評価するために設計された新しいベンチマークである。
我々は7つの最先端モデルを用いて実験を行い、事実の特定に妥当な精度にもかかわらず、より洗練された推論や多段階の計算を行うために必要な場合には、しばしばフェールすることを示した。
論文 参考訳(メタデータ) (2024-12-13T05:52:37Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。