論文の概要: TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains
- arxiv url: http://arxiv.org/abs/2404.19205v1
- Date: Tue, 30 Apr 2024 02:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:43:32.763301
- Title: TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains
- Title(参考訳): TableVQA-Bench: 複数のテーブルドメインのベンチマークを視覚的に答える
- Authors: Yoonsik Kim, Moonbin Yim, Ka Yeon Song,
- Abstract要約: 本稿では、テーブルVQA-Benchと呼ばれるテーブル視覚質問応答のベンチマークを確立する。
既存のデータセットには、TableVQAの重要な2つのコンポーネントであるイメージやQAペアが組み込まれていない点に注意が必要だ。
- 参考スコア(独自算出の注目度): 4.828743805126944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we establish a benchmark for table visual question answering, referred to as the TableVQA-Bench, derived from pre-existing table question-answering (QA) and table structure recognition datasets. It is important to note that existing datasets have not incorporated images or QA pairs, which are two crucial components of TableVQA. As such, the primary objective of this paper is to obtain these necessary components. Specifically, images are sourced either through the application of a \textit{stylesheet} or by employing the proposed table rendering system. QA pairs are generated by exploiting the large language model (LLM) where the input is a text-formatted table. Ultimately, the completed TableVQA-Bench comprises 1,500 QA pairs. We comprehensively compare the performance of various multi-modal large language models (MLLMs) on TableVQA-Bench. GPT-4V achieves the highest accuracy among commercial and open-sourced MLLMs from our experiments. Moreover, we discover that the number of vision queries plays a significant role in TableVQA performance. To further analyze the capabilities of MLLMs in comparison to their LLM backbones, we investigate by presenting image-formatted tables to MLLMs and text-formatted tables to LLMs, respectively. Our findings suggest that processing visual inputs is more challenging than text inputs, as evidenced by the lower performance of MLLMs, despite generally requiring higher computational costs than LLMs. The proposed TableVQA-Bench and evaluation codes are available at \href{https://github.com/naver-ai/tablevqabench}{https://github.com/naver-ai/tablevqabench}.
- Abstract(参考訳): 本稿では,既存のテーブル質問回答(QA)とテーブル構造認識データセットから得られたテーブル視覚質問応答(TableVQA-Bench)のベンチマークを確立する。
既存のデータセットには、TableVQAの重要な2つのコンポーネントであるイメージやQAペアが組み込まれていない点に注意が必要だ。
したがって,本論文の主な目的は,これらの必要な構成要素を得ることである。
具体的には、画像は \textit{stylesheet} のアプリケーションまたは提案したテーブルレンダリングシステムを用いてソースされる。
QAペアは、入力がテキスト形式のテーブルである大きな言語モデル(LLM)を利用して生成される。
最終的に完成したTableVQA-Benchは1500QAペアで構成されている。
本研究では,TableVQA-Bench上での多モード大言語モデル(MLLM)の性能を総合的に比較する。
GPT-4Vは商用およびオープンソースMLLMの中で最も精度が高い。
さらに,TableVQAの性能において,視覚的クエリの数が重要な役割を担っていることが判明した。
LLMのバックボーンと比較して,MLLMの機能を更に分析するために,画像整形テーブルをMLLMに,テキスト整形テーブルをLSMに,それぞれ提示して検討する。
この結果から,MLLMよりも計算コストが高いにもかかわらず,MLLMの低性能が示すように,テキスト入力よりも視覚入力の処理が困難であることが示唆された。
提案された TableVQA-Bench と評価コードは \href{https://github.com/naver-ai/tablevqabench}{https://github.com/naver-ai/tablevqabench} で公開されている。
関連論文リスト
- Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - TTQA-RS- A break-down prompting approach for Multi-hop Table-Text Question Answering with Reasoning and Summarization [3.531533402602335]
マルチホップテーブル-テキストQAは、テーブルとテキストの間に複数のホップを必要とする。
我々のモデルはテーブルテキスト情報検索に拡張された検索器を使用する。
我々の実験は、素早いアプローチの可能性を実証している。
論文 参考訳(メタデータ) (2024-06-20T20:55:38Z) - Multimodal Table Understanding [26.652797853893233]
直感的な視覚情報を使ってテーブルを直接理解する方法は、より実用的なアプリケーションを開発する上で極めて重要かつ緊急の課題である。
そこで我々は,様々なテーブル関連要求に対して,モデルが正しい応答を生成する必要がある,新しい問題であるマルチモーダルテーブル理解を提案する。
汎用マルチモーダル大言語モデル(MLLM)であるTable-LLaVAを開発した。
論文 参考訳(メタデータ) (2024-06-12T11:27:03Z) - TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。
この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。
実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文 参考訳(メタデータ) (2024-06-03T13:54:05Z) - KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - Large Language Model for Table Processing: A Survey [18.32332372134988]
本調査では,テーブル関連タスクの概要について概観する。
テーブル質問応答やスプレッドシート操作やテーブルデータ分析といった新しいフィールドなど、従来のタスクをカバーしています。
論文 参考訳(メタデータ) (2024-02-04T00:47:53Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - TableQAKit: A Comprehensive and Practical Toolkit for Table-based
Question Answering [23.412691101965414]
TableQAKitは、TableQA専用に設計された最初の総合ツールキットである。
TableQAKitは、ビジュアル操作を含むインタラクティブなインターフェースと、使いやすい包括的なデータを備えたオープンソースである。
論文 参考訳(メタデータ) (2023-10-23T16:33:23Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - CLTR: An End-to-End, Transformer-Based System for Cell Level Table
Retrieval and Table Question Answering [8.389189333083513]
本稿では,最初のエンドツーエンドのテーブル質問応答(QA)システムを提案する。
自然言語の質問と大量のテーブルコーパスを入力として、最も関係のあるテーブルを検索し、質問に答えるために正しいテーブルセルを見つける。
76,242テーブル上の2,005の自然言語質問からなる2つの新しいオープンドメインベンチマークであるE2E_WTQとE2E_GNQを導入する。
論文 参考訳(メタデータ) (2021-06-08T15:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。