論文の概要: Hierarchical structure understanding in complex tables with VLLMs: a benchmark and experiments
- arxiv url: http://arxiv.org/abs/2511.08298v1
- Date: Wed, 12 Nov 2025 01:51:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.747808
- Title: Hierarchical structure understanding in complex tables with VLLMs: a benchmark and experiments
- Title(参考訳): VLLMを持つ複素テーブルにおける階層構造理解--ベンチマークと実験
- Authors: Luca Bindini, Simone Giovannini, Simone Marinai, Valeria Nardoni, Kimiya Noor Ali,
- Abstract要約: 本研究では,VLLM(Vision Large Language Models)の科学論文における表の構造を理解し,解釈する能力について検討する。
実験の基盤として、大規模な科学表のコーパスであるPubTables-1Mデータセットを使用しました。
モデルの理解能力を探索し、様々なプロンプトフォーマットや書き方を試すために、一連のプロンプトエンジニアリング戦略を採用しています。
また、評価されたVLLMの性能と比較し、小さなテーブルの集合上でタスクを解くための人間のパフォーマンスを測定した。
- 参考スコア(独自算出の注目度): 1.226598527858578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates the ability of Vision Large Language Models (VLLMs) to understand and interpret the structure of tables in scientific articles. Specifically, we explore whether VLLMs can infer the hierarchical structure of tables without additional processing. As a basis for our experiments we use the PubTables-1M dataset, a large-scale corpus of scientific tables. From this dataset, we extract a subset of tables that we introduce as Complex Hierarchical Tables (CHiTab): a benchmark collection of complex tables containing hierarchical headings. We adopt a series of prompt engineering strategies to probe the models' comprehension capabilities, experimenting with various prompt formats and writing styles. Multiple state-of-the-art open-weights VLLMs are evaluated on the benchmark first using their off-the-shelf versions and then fine-tuning some models on our task. We also measure the performance of humans to solve the task on a small set of tables comparing with performance of the evaluated VLLMs. The experiments support our intuition that generic VLLMs, not explicitly designed for understanding the structure of tables, can perform this task. This study provides insights into the potential and limitations of VLLMs to process complex tables and offers guidance for future work on integrating structured data understanding into general-purpose VLLMs.
- Abstract(参考訳): 本研究では,VLLM(Vision Large Language Models)の科学論文における表の構造を理解し,解釈する能力について検討する。
具体的には、VLLMが追加処理なしでテーブルの階層構造を推測できるかどうかを検討する。
実験の基盤として、大規模な科学表のコーパスであるPubTables-1Mデータセットを使用しました。
このデータセットから、複素階層テーブル(CHiTab)と呼ばれるテーブルのサブセットを抽出する。
モデルの理解能力を探索し、様々なプロンプトフォーマットや書き方を試すために、一連のプロンプトエンジニアリング戦略を採用しています。
複数の最先端のオープンウェイトVLLMを、まずオフ・ザ・シェルフバージョンを使用してベンチマークで評価し、その後、タスク上のいくつかのモデルを微調整します。
また、評価されたVLLMの性能と比較し、小さなテーブルの集合上でタスクを解くための人間のパフォーマンスを測定した。
実験は、テーブルの構造を理解するために明示的に設計されていない汎用的なVLLMが、このタスクを実行できるという我々の直感を支持する。
本研究は、複雑なテーブルを処理するためのVLLMの可能性と限界についての洞察を提供し、構造化されたデータ理解を汎用的なVLLMに統合するためのガイダンスを提供する。
関連論文リスト
- Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - TReB: A Comprehensive Benchmark for Evaluating Table Reasoning Capabilities of Large Language Models [30.26407735827857]
表構造データによる推論は、大規模言語モデル(LLM)に重大な課題をもたらす
本稿では,表理解能力と表推論能力の両方を測定する総合的な表推論進化ベンチマークTReBを提案する。
我々は3つの異なる推論モード(TCoT, PoT, ICoT)でテーブル推論能力を頑健に測定する評価フレームワークを構築した。
論文 参考訳(メタデータ) (2025-06-23T09:02:04Z) - RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis [16.572608600078922]
RealHiTBenchは、様々な入力フォーマットにわたるLarge Language Models (LLM)のパフォーマンスを評価するために設計されたベンチマークである。
LLMを25個使用した実験の結果,RealHiTBenchは本当に難しいベンチマークであることがわかった。
また、階層的なヘッダをツリー構造に整理するツリーベースのパイプラインであるTreeThinkerも開発しています。
論文 参考訳(メタデータ) (2025-06-16T12:19:08Z) - NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables [47.937322344856945]
textscNeedleInATable (NIAT)は、各テーブルセルを針として扱い、セルの位置やルックアップ質問に基づいてターゲットセルを抽出するモデルを必要とする。
論文 参考訳(メタデータ) (2025-04-09T03:46:56Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering [54.486757407849915]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。