論文の概要: Efficient Table Retrieval and Understanding with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.07642v1
- Date: Sat, 07 Feb 2026 17:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.737096
- Title: Efficient Table Retrieval and Understanding with Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルによる効率的な表検索と理解
- Authors: Zhuoyan Xu, Haoyang Fang, Boran Han, Bonan Min, Bernie Wang, Cuixiong Hu, Shuai Zhang,
- Abstract要約: タブラルデータは、財務報告、手書き記録、文書スキャンなど、幅広い現実世界のシナリオで画像形式でキャプチャされることが多い。
これらの視覚表現は、構造的複雑さと視覚的複雑さの両方を組み合わせることによって、機械理解に固有の課題をもたらす。
本研究では,MLLMがテーブルイメージの大規模なコレクション上でクエリに応答できるフレームワークであるTabRAGを提案する。
- 参考スコア(独自算出の注目度): 22.49099892041409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data is frequently captured in image form across a wide range of real-world scenarios such as financial reports, handwritten records, and document scans. These visual representations pose unique challenges for machine understanding, as they combine both structural and visual complexities. While recent advances in Multimodal Large Language Models (MLLMs) show promising results in table understanding, they typically assume the relevant table is readily available. However, a more practical scenario involves identifying and reasoning over relevant tables from large-scale collections to answer user queries. To address this gap, we propose TabRAG, a framework that enables MLLMs to answer queries over large collections of table images. Our approach first retrieves candidate tables using jointly trained visual-text foundation models, then leverages MLLMs to perform fine-grained reranking of these candidates, and finally employs MLLMs to reason over the selected tables for answer generation. Through extensive experiments on a newly constructed dataset comprising 88,161 training and 9,819 testing samples across 8 benchmarks with 48,504 unique tables, we demonstrate that our framework significantly outperforms existing methods by 7.0% in retrieval recall and 6.1% in answer accuracy, offering a practical solution for real-world table understanding tasks.
- Abstract(参考訳): タブラルデータは、財務報告、手書き記録、文書スキャンなど、幅広い現実世界のシナリオで画像形式でキャプチャされることが多い。
これらの視覚表現は、構造的複雑さと視覚的複雑さの両方を組み合わせることによって、機械理解に固有の課題をもたらす。
MLLM(Multimodal Large Language Models)の最近の進歩は、テーブル理解における有望な結果を示しているが、典型的には、関連するテーブルがすぐに利用可能であると仮定する。
しかし、より実践的なシナリオは、ユーザクエリに答えるために、大規模なコレクションから関連するテーブルを特定し、推論することである。
このギャップに対処するために,MLLMが大量のテーブルイメージに対してクエリに応答できるフレームワークであるTabRAGを提案する。
提案手法では,まず,協調学習されたビジュアルテキスト基礎モデルを用いて候補テーブルを検索し,次にMLLMを用いてそれらの候補の微調整を行い,最後にMLLMを用いて回答生成を行う。
88,161のトレーニングと、48,504のテーブルを持つ8つのベンチマークで9,819のサンプルを新たに構築したデータセットに関する広範な実験を通じて、我々のフレームワークは、検索リコールの7.0%、回答精度の6.1%で既存のメソッドを著しく上回り、現実のテーブル理解タスクの実用的なソリューションを提供することを示した。
関連論文リスト
- Texts or Images? A Fine-grained Analysis on the Effectiveness of Input Representations and Models for Table Question Answering [16.790216473975146]
2つの視点から表表現とモデルの組み合わせの有効性に関する最初の制御された研究を行う。
テーブル表現とモデルの組み合わせはセットアップによって異なります。
本稿では,テーブル表現を動的に選択するFRESを提案する。
論文 参考訳(メタデータ) (2025-05-20T09:36:17Z) - RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking [63.253294691180635]
現実世界のシナリオでは、純粋なテキスト以外では、かなりの量の知識がテーブルに格納される。
まず、階層型メモリインデックス、多段階検索、グラフ認識プロンプトからなるテーブルコーパス対応RAGフレームワークT-RAGを提案する。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - Multimodal Table Understanding [26.652797853893233]
直感的な視覚情報を使ってテーブルを直接理解する方法は、より実用的なアプリケーションを開発する上で極めて重要かつ緊急の課題である。
そこで我々は,様々なテーブル関連要求に対して,モデルが正しい応答を生成する必要がある,新しい問題であるマルチモーダルテーブル理解を提案する。
汎用マルチモーダル大言語モデル(MLLM)であるTable-LLaVAを開発した。
論文 参考訳(メタデータ) (2024-06-12T11:27:03Z) - Large Language Model for Table Processing: A Survey [18.32332372134988]
本調査では,テーブル関連タスクの概要について概観する。
テーブル質問応答やスプレッドシート操作やテーブルデータ分析といった新しいフィールドなど、従来のタスクをカバーしています。
論文 参考訳(メタデータ) (2024-02-04T00:47:53Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。