論文の概要: Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner
- arxiv url: http://arxiv.org/abs/2412.20662v1
- Date: Mon, 30 Dec 2024 02:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:10.403097
- Title: Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner
- Title(参考訳): ビジョンLLMによるテーブル認識の強化: ベンチマークと周辺ガイド型ツールチェーン推論
- Authors: Yitong Zhou, Mingyue Cheng, Qingyang Mao, Qi Liu, Feiyang Xu, Xin Li, Enhong Chen,
- Abstract要約: 我々は、非構造化テーブルを認識するための訓練不要推論パラダイムとして、視覚大言語モデル(VLLM)を採用している。
低画質の入力画像の問題を軽減するために,Nighbor-Guided Toolchain Reasoner (NGTR) フレームワークを提案する。
提案手法は,バニラVLLMの認識能力を著しく向上させる。
- 参考スコア(独自算出の注目度): 47.13805762269659
- License:
- Abstract: Pre-trained foundation models have recently significantly progressed in structured table understanding and reasoning. However, despite advancements in areas such as table semantic understanding and table question answering, recognizing the structure and content of unstructured tables using Vision Large Language Models (VLLMs) remains under-explored. In this work, we address this research gap by employing VLLMs in a training-free reasoning paradigm. First, we design a benchmark with various hierarchical dimensions relevant to table recognition. Subsequently, we conduct in-depth evaluations using pre-trained VLLMs, finding that low-quality image input is a significant bottleneck in the recognition process. Drawing inspiration from these findings, we propose the Neighbor-Guided Toolchain Reasoner (NGTR) framework, which is characterized by integrating multiple lightweight models for low-level visual processing operations aimed at mitigating issues with low-quality input images. Specifically, we utilize a neighbor retrieval mechanism to guide the generation of multiple tool invocation plans, transferring tool selection experiences from similar neighbors to the given input, thereby facilitating suitable tool selection. Additionally, we introduce a reflection module to supervise the tool invocation process. Extensive experiments on public table recognition datasets demonstrate that our approach significantly enhances the recognition capabilities of the vanilla VLLMs. We believe that the designed benchmark and the proposed NGTR framework could provide an alternative solution in table recognition.
- Abstract(参考訳): 事前学習された基礎モデルは、最近、構造化テーブルの理解と推論において著しく進歩している。
しかし、テーブル意味理解やテーブル質問応答といった分野の進歩にもかかわらず、視覚大言語モデル(VLLM)を用いた非構造化テーブルの構造と内容の認識は未検討のままである。
本研究では,VLLMを学習自由推論パラダイムに採用することで,この研究ギャップに対処する。
まず、テーブル認識に関連する様々な階層次元のベンチマークを設計する。
その後、事前訓練されたVLLMを用いて詳細な評価を行い、低品質の画像入力が認識プロセスにおいて重要なボトルネックとなることを発見した。
これらの知見から着想を得たNighbor-Guided Toolchain Reasoner (NGTR) フレームワークを提案する。
具体的には、隣接する検索機構を用いて、複数のツール呼び出し計画の生成を誘導し、類似した隣人からのツール選択経験を与えられた入力に転送し、適切なツール選択を容易にする。
さらに,ツール実行プロセスの監視を行うリフレクションモジュールも導入する。
パブリックテーブル認識データセットに対する大規模な実験により,バニラVLLMの認識能力を著しく向上することが示された。
設計したベンチマークと提案したNGTRフレームワークは、テーブル認識において代替的なソリューションを提供することができると信じている。
関連論文リスト
- Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking [37.186306646752975]
マルチビュー3次元検出・追跡タスクのための統合オブジェクト認識時間学習フレームワークを提案する。
提案モデルでは,異なる設計のベースラインよりも一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2024-07-03T16:10:19Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting
Generative AI-based Visualizations [1.709620026135923]
大規模言語モデル(LLM)は、可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。
本稿では,LLMを用いて生成した可視化の評価をモデル化する問題に対処する。
本稿では,原子部品の評価を分解する理論評価スタックEvaLLMを提案する。
論文 参考訳(メタデータ) (2024-02-03T14:28:55Z) - Developing a Scalable Benchmark for Assessing Large Language Models in
Knowledge Graph Engineering [0.0]
我々は知識グラフ工学(KGE)に焦点を当てたベンチマークフレームワークを導入する。
有用なツールであるながら、大言語モデルは、ゼロショットプロンプトによる知識グラフ生成を支援するのに相応しいものではない。
論文 参考訳(メタデータ) (2023-08-31T10:31:19Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。