論文の概要: Table Understanding and (Multimodal) LLMs: A Cross-Domain Case Study on Scientific vs. Non-Scientific Data
- arxiv url: http://arxiv.org/abs/2507.00152v1
- Date: Mon, 30 Jun 2025 18:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.530727
- Title: Table Understanding and (Multimodal) LLMs: A Cross-Domain Case Study on Scientific vs. Non-Scientific Data
- Title(参考訳): 表理解と(多目的)LLM:科学と非科学的データに関するクロスドメインケーススタディ
- Authors: Ekaterina Borisova, Fabio Barth, Nils Feldhus, Raia Abu Ahmad, Malte Ostendorff, Pedro Ortiz Suarez, Georg Rehm, Sebastian Möller,
- Abstract要約: 表理解タスクにおけるテキストベースLLMとマルチモーダルLLMの両方の有効性について検討する。
我々は, 科学的文脈と非科学的文脈の表上でのパフォーマンスを比較し, 画像として表される表上での頑健さを, テキストで比較した。
- 参考スコア(独自算出の注目度): 12.56716294438794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tables are among the most widely used tools for representing structured data in research, business, medicine, and education. Although LLMs demonstrate strong performance in downstream tasks, their efficiency in processing tabular data remains underexplored. In this paper, we investigate the effectiveness of both text-based and multimodal LLMs on table understanding tasks through a cross-domain and cross-modality evaluation. Specifically, we compare their performance on tables from scientific vs. non-scientific contexts and examine their robustness on tables represented as images vs. text. Additionally, we conduct an interpretability analysis to measure context usage and input relevance. We also introduce the TableEval benchmark, comprising 3017 tables from scholarly publications, Wikipedia, and financial reports, where each table is provided in five different formats: Image, Dictionary, HTML, XML, and LaTeX. Our findings indicate that while LLMs maintain robustness across table modalities, they face significant challenges when processing scientific tables.
- Abstract(参考訳): テーブルは、研究、ビジネス、医療、教育において構造化されたデータを表現するための最も広く使われているツールの一つである。
LLMは下流タスクにおいて高い性能を示すが、表データの処理効率は未探索のままである。
本稿では,テキストベースとマルチモーダル LLM が表理解タスクに与える影響について,クロスドメインとクロスモーダル評価を用いて検討する。
具体的には、科学的文脈と非科学的文脈の表上でのパフォーマンスを比較し、画像とテキストで表される表上での頑健さについて検討する。
さらに、コンテキストの使用状況と入力関連性を測定するために、解釈可能性分析を行う。
また、学術出版物、ウィキペディア、財務報告の3017のテーブルからなるTableEvalベンチマークを導入し、各テーブルは画像、辞書、HTML、XML、LaTeXの5つの異なるフォーマットで提供される。
以上の結果から,LSMは表のモダリティにまたがる堅牢性を維持しつつも,科学的な表を処理する上で重要な課題に直面していることが明らかとなった。
関連論文リスト
- TReB: A Comprehensive Benchmark for Evaluating Table Reasoning Capabilities of Large Language Models [30.26407735827857]
表構造データによる推論は、大規模言語モデル(LLM)に重大な課題をもたらす
本稿では,表理解能力と表推論能力の両方を測定する総合的な表推論進化ベンチマークTReBを提案する。
我々は3つの異なる推論モード(TCoT, PoT, ICoT)でテーブル推論能力を頑健に測定する評価フレームワークを構築した。
論文 参考訳(メタデータ) (2025-06-23T09:02:04Z) - Better Think with Tables: Tabular Structures Enhance LLM Comprehension for Data-Analytics Requests [33.471112091886894]
大規模言語モデル(LLM)は、情報検索やデータ操作に関連するデータ分析要求に悩まされることが多い。
我々は、データ分析要求のために表構造をLCMに注入するThinking with Tablesを紹介した。
テーブルを提供すると平均的なパフォーマンスが40.29パーセント向上し、操作性やトークン効率が向上することを示す。
論文 参考訳(メタデータ) (2024-12-22T23:31:03Z) - Benchmarking Table Comprehension In The Wild [9.224698222634789]
TableQuestは、LLM(Large Language Models)の全体的なテーブル理解能力を評価するために設計された新しいベンチマークである。
我々は7つの最先端モデルを用いて実験を行い、事実の特定に妥当な精度にもかかわらず、より洗練された推論や多段階の計算を行うために必要な場合には、しばしばフェールすることを示した。
論文 参考訳(メタデータ) (2024-12-13T05:52:37Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - Large Language Model for Table Processing: A Survey [18.32332372134988]
本調査では,テーブル関連タスクの概要について概観する。
テーブル質問応答やスプレッドシート操作やテーブルデータ分析といった新しいフィールドなど、従来のタスクをカバーしています。
論文 参考訳(メタデータ) (2024-02-04T00:47:53Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - PixT3: Pixel-based Table-To-Text Generation [66.96636025277536]
本稿では,線形化と入力サイズ制限の課題を克服するマルチモーダルテーブル・トゥ・テキスト・モデルPixT3を提案する。
ToTToとLogic2Textベンチマークの実験では、PixT3はテキストのみで動作するジェネレータよりも競争力があり、優れていることが示されている。
論文 参考訳(メタデータ) (2023-11-16T11:32:47Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。