論文の概要: T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables
- arxiv url: http://arxiv.org/abs/2508.19813v4
- Date: Tue, 23 Sep 2025 07:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 14:02:59.871864
- Title: T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables
- Title(参考訳): T2R-bench:実世界の産業用表から記事レベルレポートを生成するベンチマーク
- Authors: Jie Zhang, Changzai Pan, Kaiwen Wei, Sishi Xiong, Yu Zhao, Xiangyu Li, Jiaxin Peng, Xiaoyan Gu, Jian Yang, Wenhan Chang, Zhenhe Wu, Jiang Zhong, Shuangyong Song, Yongxiang Li, Xuelong Li,
- Abstract要約: 本稿では,テーブル・ツー・レポーティングタスクを提案し,T2R-benchというバイリンガルベンチマークを構築した。
ベンチマークは457の産業用テーブルで構成されており、すべて現実世界のシナリオから導かれ、19の産業ドメインを含んでいる。
25台のLLMでの実験では、Deepseek-R1のような最先端のモデルでさえ62.71のスコアでしかパフォーマンスが得られないことがわかった。
- 参考スコア(独自算出の注目度): 65.12524437711737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extensive research has been conducted to explore the capabilities of large language models (LLMs) in table reasoning. However, the essential task of transforming tables information into reports remains a significant challenge for industrial applications. This task is plagued by two critical issues: 1) the complexity and diversity of tables lead to suboptimal reasoning outcomes; and 2) existing table benchmarks lack the capacity to adequately assess the practical application of this task. To fill this gap, we propose the table-to-report task and construct a bilingual benchmark named T2R-bench, where the key information flow from the tables to the reports for this task. The benchmark comprises 457 industrial tables, all derived from real-world scenarios and encompassing 19 industry domains as well as 4 types of industrial tables. Furthermore, we propose an evaluation criteria to fairly measure the quality of report generation. The experiments on 25 widely-used LLMs reveal that even state-of-the-art models like Deepseek-R1 only achieves performance with 62.71 overall score, indicating that LLMs still have room for improvement on T2R-bench.
- Abstract(参考訳): テーブル推論における大規模言語モデル(LLM)の能力について、広範囲にわたる研究がなされている。
しかし、表情報をレポートに変換するという重要な課題は、産業アプリケーションにとって重要な課題である。
この仕事は2つの重大な問題に悩まされている。
1)表の複雑さと多様性は、最適以下の推論結果につながる。
2)既存の表ベンチマークでは,この課題の実践的応用を適切に評価する能力が欠如している。
このギャップを埋めるために,テーブル・ツー・レポーティングタスクを提案し,T2R-benchというバイリンガルベンチマークを構築した。
このベンチマークは457の産業用テーブルで構成されており、いずれも現実世界のシナリオから派生したもので、19の産業用ドメインと4種類の産業用テーブルを含んでいる。
さらに,レポート生成の質を定量的に評価するための評価基準を提案する。
広く使われている25台のLLMの実験では、Deepseek-R1のような最先端のモデルでさえ62.71のスコアでしか性能が得られず、LLMにはT2Rベンチの改善の余地があることが示されている。
関連論文リスト
- ReasonTabQA: A Comprehensive Benchmark for Table Question Answering from Real World Industrial Scenarios [42.9161992743627]
本稿では、エネルギーや自動車といった30の産業領域にまたがる1,932のテーブルを含む大規模バイリンガルベンチマークであるReasonTabQAを紹介する。
また、テーブル認識による検証可能な報酬を利用して論理的推論経路を生成する強化学習手法であるTabCodeRLを導入する。
論文 参考訳(メタデータ) (2026-01-12T07:36:06Z) - TReB: A Comprehensive Benchmark for Evaluating Table Reasoning Capabilities of Large Language Models [30.26407735827857]
表構造データによる推論は、大規模言語モデル(LLM)に重大な課題をもたらす
本稿では,表理解能力と表推論能力の両方を測定する総合的な表推論進化ベンチマークTReBを提案する。
我々は3つの異なる推論モード(TCoT, PoT, ICoT)でテーブル推論能力を頑健に測定する評価フレームワークを構築した。
論文 参考訳(メタデータ) (2025-06-23T09:02:04Z) - Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models [52.94091440130039]
表推論(TR)は、半構造化データに対する構造化推論を必要とする。
小型言語モデル(SLM)は、大きなLM(LLM、例えばGPT-4o)と比較して限られた能力を持つ。
実行可能プログラムを生成することで、テキストベースTR(T-TR)の鍵となる制限を回避するプログラムベースTR(P-TR)を提案する。
4つのTRベンチマークの実験により、Table-r1は全てのSLMベースの手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-06-06T14:52:19Z) - MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark [51.30875219634243]
MMTUは、25の現実世界のテーブルタスクに30万以上の質問がある大規模なベンチマークである。
MMTUは、専門家レベルで実際のテーブルを理解し、推論し、操作できるモデルを包括的に評価するように設計されている。
MMTUはテーブル理解、推論、コーディングといった、今日のフロンティアモデルにとって困難なスキルの組み合わせを必要としています。
論文 参考訳(メタデータ) (2025-06-05T21:05:03Z) - GTR: Graph-Table-RAG for Cross-Table Question Answering [53.11230952572134]
テーブルコーパスをヘテロジニアスグラフに再構成するグラフテーブル-テーブル-RAG フレームワーク GTR を提案する。
GTRは、高いデプロイメント効率を維持しながら、より優れたクロステーブル質問応答性能を示し、実際の実用性を示している。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - Benchmarking Table Comprehension In The Wild [9.224698222634789]
TableQuestは、LLM(Large Language Models)の全体的なテーブル理解能力を評価するために設計された新しいベンチマークである。
我々は7つの最先端モデルを用いて実験を行い、事実の特定に妥当な精度にもかかわらず、より洗練された推論や多段階の計算を行うために必要な場合には、しばしばフェールすることを示した。
論文 参考訳(メタデータ) (2024-12-13T05:52:37Z) - TableGPT2: A Large Multimodal Model with Tabular Data Integration [22.77225649639725]
TableGPT2は、593.8K以上のテーブルと2.36Mの高品質なクエリテーブル出力を備えた、厳格に事前訓練および微調整されたモデルである。
TableGPT2の重要な革新の1つは、スキーマレベルとセルレベルの情報をキャプチャするために特別に設計されたテーブルエンコーダである。
論文 参考訳(メタデータ) (2024-11-04T13:03:13Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning [61.14586098005874]
現在のLarge Language Models (LLM) は、テーブル構造を理解し、正確な数値推論を適用する能力に制限がある。
LLMと特殊なツールを統合するTART(Tool-Augmented Reasoning framework for Tables)を紹介した。
TARTには、正確なデータ表現を保証するテーブルフォーマッター、特定の計算ツールを開発するツールメーカー、説明可能性を維持するための説明ジェネレータの3つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2024-09-18T06:19:59Z) - TableBench: A Comprehensive and Complex Benchmark for Table Question Answering [33.64465594140019]
本稿では,産業シナリオにおける大規模言語モデル(LLM)の適用について検討する。
本稿では,テーブル質問応答機能(TableQA)の4大カテゴリに18のフィールドを含む,包括的で複雑なベンチマークTableBenchを提案する。
TableBenchで実施された大規模な実験は、オープンソースのLLMとプロプライエタリなLLMの両方に、現実世界の要求を満たすための大きな改善の余地があることを示唆している。
論文 参考訳(メタデータ) (2024-08-17T11:40:10Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。