Fugu-MT 論文翻訳(概要): Does Table Source Matter? Benchmarking and Improving Multimodal Scientific Table Understanding and Reasoning

論文の概要: Does Table Source Matter? Benchmarking and Improving Multimodal Scientific Table Understanding and Reasoning

arxiv url: http://arxiv.org/abs/2501.13042v1
Date: Wed, 22 Jan 2025 17:44:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-23 18:44:14.089057
Title: Does Table Source Matter? Benchmarking and Improving Multimodal Scientific Table Understanding and Reasoning
Title（参考訳）: テーブルソースは重要か? マルチモーダルな科学テーブル理解と推論のベンチマークと改善
Authors: Bohao Yang, Yingji Zhang, Dong Liu, André Freitas, Chenghua Lin,
Abstract要約: 動的入力画像解像度を用いた多モーダル科学テーブル理解と推論のための包括的フレームワークを提案する。私たちのフレームワークは、MMSci-Pre、MMSci-Ins、MMSci-Evalの3つの重要なコンポーネントで構成されています。動的入力分解能を持つテーブルベースMLLMは,汎用テーブル理解能力と数値推論能力の両方に有意な改善が認められた。
参考スコア（独自算出の注目度）: 24.774727982025773
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent large language models (LLMs) have advanced table understanding capabilities but rely on converting tables into text sequences. While multimodal large language models (MLLMs) enable direct visual processing, they face limitations in handling scientific tables due to fixed input image resolutions and insufficient numerical reasoning capabilities. We present a comprehensive framework for multimodal scientific table understanding and reasoning with dynamic input image resolutions. Our framework consists of three key components: (1) MMSci-Pre, a domain-specific table structure learning dataset of 52K scientific table structure recognition samples, (2) MMSci-Ins, an instruction tuning dataset with 12K samples across three table-based tasks, and (3) MMSci-Eval, a benchmark with 3,114 testing samples specifically designed to evaluate numerical reasoning capabilities. Extensive experiments demonstrate that our domain-specific approach with 52K scientific table images achieves superior performance compared to 150K general-domain tables, highlighting the importance of data quality over quantity. Our proposed table-based MLLMs with dynamic input resolutions show significant improvements in both general table understanding and numerical reasoning capabilities, with strong generalisation to held-out datasets. Our code and data are publicly available at https://github.com/Bernard-Yang/MMSci_Table.
Abstract（参考訳）: 最近の大規模言語モデル(LLM)は高度なテーブル理解能力を持っているが、テーブルをテキストシーケンスに変換することに依存している。 MLLM(Multimodal large language model)は直接視覚処理を可能にするが、固定された入力画像解像度と不十分な数値推論能力のため、科学的なテーブルを扱う際の制限に直面している。動的入力画像解像度を用いた多モーダル科学テーブル理解と推論のための包括的フレームワークを提案する。 MMSci-Pre, 領域固有のテーブル構造学習データセットである52Kの科学テーブル構造認識データセット, 2) MMSci-Ins, 3つのテーブルベースタスクに12Kのサンプルを配置した命令チューニングデータセット, (3) MMSci-Eval, 数値推論能力を評価するために特別に設計された3,114の試験サンプルを用いたベンチマークの3つで構成されている。 52Kの科学的テーブル画像による領域固有のアプローチは,150Kの汎用ドメインテーブルに比べて優れた性能を示し,データ品質の重要性を強調した。提案する動的入力分解能を持つテーブルベースMLLMは,一般的なテーブル理解能力と数値推論能力の両面で有意な改善がみられ,ホールドアウトデータセットへの強力な一般化が期待できる。私たちのコードとデータはhttps://github.com/Bernard-Yang/MMSci_Table.comで公開されています。

関連論文リスト

Table Understanding and (Multimodal) LLMs: A Cross-Domain Case Study on Scientific vs. Non-Scientific Data [12.56716294438794]
表理解タスクにおけるテキストベースLLMとマルチモーダルLLMの両方の有効性について検討する。我々は, 科学的文脈と非科学的文脈の表上でのパフォーマンスを比較し, 画像として表される表上での頑健さを, テキストで比較した。
論文参考訳（メタデータ） (2025-06-30T18:04:36Z)
TableMoE: Neuro-Symbolic Routing for Structured Expert Reasoning in Multimodal Table Understanding [3.404552731440374]
TableMoEは、マルチモーダルテーブルデータに対する堅牢で構造化された推論のために特別に設計された、ニューロシンボリックなMixture-of-Connector-Experts (MoCE)アーキテクチャである。 TableMoEは革新的なNeuro-Symbolic Routing機構を備えており、潜在意味トークンの役割を予測し、テーブル要素を専門の専門家に動的にルーティングする。評価のために、実世界のマルチモーダル劣化と構造的複雑さの下でのストレステストモデルに特化して設計された、挑戦的なWildStructベンチマーク4つをキュレートし、リリースする。
論文参考訳（メタデータ） (2025-06-26T15:41:34Z)
MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark [70.47478110973042]
MMTUは、25の現実世界のテーブルタスクに30万以上の質問がある大規模なベンチマークである。 MMTUは、専門家レベルで実際のテーブルを理解し、推論し、操作できるモデルを包括的に評価するように設計されている。 MMTUはテーブル理解、推論、コーディングといった、今日のフロンティアモデルにとって困難なスキルの組み合わせを必要としています。
論文参考訳（メタデータ） (2025-06-05T21:05:03Z)
Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。 sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。 sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文参考訳（メタデータ） (2025-06-04T15:46:30Z)
Texts or Images? A Fine-grained Analysis on the Effectiveness of Input Representations and Models for Table Question Answering [16.790216473975146]
2つの視点から表表現とモデルの組み合わせの有効性に関する最初の制御された研究を行う。テーブル表現とモデルの組み合わせはセットアップによって異なります。本稿では,テーブル表現を動的に選択するFRESを提案する。
論文参考訳（メタデータ） (2025-05-20T09:36:17Z)
TableLoRA: Low-rank Adaptation on Table Structure Understanding for Large Language Models [57.005158277893194]
TableLoRA は、PEFT における LLM のテーブル構造理解を改善するために設計されたモジュールである。テーブルを特別なトークンエンコーダでシリアライズするための特別なトークンを組み込み、2D LoRAを使ってセル位置の低ランク情報をエンコードする。
論文参考訳（メタデータ） (2025-03-06T12:50:14Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
TableGPT2: A Large Multimodal Model with Tabular Data Integration [22.77225649639725]
TableGPT2は、593.8K以上のテーブルと2.36Mの高品質なクエリテーブル出力を備えた、厳格に事前訓練および微調整されたモデルである。 TableGPT2の重要な革新の1つは、スキーマレベルとセルレベルの情報をキャプチャするために特別に設計されたテーブルエンコーダである。
論文参考訳（メタデータ） (2024-11-04T13:03:13Z)
TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。 TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-10-07T04:15:02Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
Multimodal Table Understanding [26.652797853893233]
直感的な視覚情報を使ってテーブルを直接理解する方法は、より実用的なアプリケーションを開発する上で極めて重要かつ緊急の課題である。そこで我々は,様々なテーブル関連要求に対して,モデルが正しい応答を生成する必要がある,新しい問題であるマルチモーダルテーブル理解を提案する。汎用マルチモーダル大言語モデル(MLLM)であるTable-LLaVAを開発した。
論文参考訳（メタデータ） (2024-06-12T11:27:03Z)
TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains [4.828743805126944]
本稿では、テーブルVQA-Benchと呼ばれるテーブル視覚質問応答のベンチマークを確立する。既存のデータセットには、TableVQAの重要な2つのコンポーネントであるイメージやQAペアが組み込まれていない点に注意が必要だ。
論文参考訳（メタデータ） (2024-04-30T02:05:18Z)
TDeLTA: A Light-weight and Robust Table Detection Method based on Learning Text Arrangement [34.73880086005418]
本稿では,学習テキストアレンジメント(TDeLTA)に基づく新しい,軽量で堅牢なテーブル検出手法を提案する。表を正確に特定するために,表内の意味的役割に応じてテキストブロックを4つのカテゴリに分類するテキスト分類タスクを設計する。いくつかの最先端の手法と比較して、TDeLTAは大規模な公開データセットの3.1Mモデルパラメータで競合する結果を得る。
論文参考訳（メタデータ） (2023-12-18T09:18:43Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
Multi-Type-TD-TSR -- Extracting Tables from Document Images using a Multi-stage Pipeline for Table Detection and Table Structure Recognition: from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文参考訳（メタデータ） (2021-05-23T21:17:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。