Fugu-MT 論文翻訳(概要): Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner

論文の概要: Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner

arxiv url: http://arxiv.org/abs/2412.20662v2
Date: Fri, 03 Jan 2025 06:22:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-06 12:56:03.257493
Title: Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner
Title（参考訳）: ビジョンLLMによるテーブル認識の強化: ベンチマークと周辺ガイド型ツールチェーン推論
Authors: Yitong Zhou, Mingyue Cheng, Qingyang Mao, Qi Liu, Feiyang Xu, Xin Li, Enhong Chen,
Abstract要約: 我々は、非構造化テーブルを認識するための訓練不要推論パラダイムとして、視覚大言語モデル(VLLM)を採用している。低画質の入力画像の問題を軽減するために,Nighbor-Guided Toolchain Reasoner (NGTR) フレームワークを提案する。提案手法は,バニラVLLMの認識能力を著しく向上させる。
参考スコア（独自算出の注目度）: 47.13805762269659
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained foundation models have recently significantly progressed in structured table understanding and reasoning. However, despite advancements in areas such as table semantic understanding and table question answering, recognizing the structure and content of unstructured tables using Vision Large Language Models (VLLMs) remains under-explored. In this work, we address this research gap by employing VLLMs in a training-free reasoning paradigm. First, we design a benchmark with various hierarchical dimensions relevant to table recognition. Subsequently, we conduct in-depth evaluations using pre-trained VLLMs, finding that low-quality image input is a significant bottleneck in the recognition process. Drawing inspiration from these findings, we propose the Neighbor-Guided Toolchain Reasoner (NGTR) framework, which is characterized by integrating multiple lightweight models for low-level visual processing operations aimed at mitigating issues with low-quality input images. Specifically, we utilize a neighbor retrieval mechanism to guide the generation of multiple tool invocation plans, transferring tool selection experiences from similar neighbors to the given input, thereby facilitating suitable tool selection. Additionally, we introduce a reflection module to supervise the tool invocation process. Extensive experiments on public table recognition datasets demonstrate that our approach significantly enhances the recognition capabilities of the vanilla VLLMs. We believe that the designed benchmark and the proposed NGTR framework could provide an alternative solution in table recognition.
Abstract（参考訳）: 事前学習された基礎モデルは、最近、構造化テーブルの理解と推論において著しく進歩している。しかし、テーブル意味理解やテーブル質問応答といった分野の進歩にもかかわらず、視覚大言語モデル(VLLM)を用いた非構造化テーブルの構造と内容の認識は未検討のままである。本研究では,VLLMを学習自由推論パラダイムに採用することで,この研究ギャップに対処する。まず、テーブル認識に関連する様々な階層次元のベンチマークを設計する。その後、事前訓練されたVLLMを用いて詳細な評価を行い、低品質の画像入力が認識プロセスにおいて重要なボトルネックとなることを発見した。これらの知見から着想を得たNighbor-Guided Toolchain Reasoner (NGTR) フレームワークを提案する。具体的には、隣接する検索機構を用いて、複数のツール呼び出し計画の生成を誘導し、類似した隣人からのツール選択経験を与えられた入力に転送し、適切なツール選択を容易にする。さらに,ツール実行プロセスの監視を行うリフレクションモジュールも導入する。パブリックテーブル認識データセットに対する大規模な実験により,バニラVLLMの認識能力を著しく向上することが示された。設計したベンチマークと提案したNGTRフレームワークは、テーブル認識において代替的なソリューションを提供することができると信じている。

関連論文リスト

Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models [42.79282247484499]
視覚言語モデル(VLM)は、視覚的推論、文書理解、マルチモーダル対話など、幅広い視覚的質問応答ベンチマークで大きく進歩している。最近の研究では、これらのモデルが、きめ細かい視覚的知識をテストする従来の画像分類ベンチマークに後れを取っていることが示されている。我々は、細粒度分類ベンチマークにおいて、多数の最近のVLMをテストし、細粒度知識と他のビジョンベンチマークとの切り離しにおける潜在的な要因を特定した。
論文参考訳（メタデータ） (2026-02-19T22:07:29Z)
VersaViT: Enhancing MLLM Vision Backbones via Task-Guided Optimization [87.26383908243878]
マルチモーダル大言語モデルにおける視覚エンコーダは,その高密度な特徴表現に欠けていることを示す。本稿では,協調学習のための新しいマルチタスクフレームワークであるVersaViTを提案する。
論文参考訳（メタデータ） (2026-02-10T16:08:19Z)
How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2026-02-02T09:24:45Z)
Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models [0.0]
ビジュアル言語モデル(VLM)は強力な生成ツールであるが、しばしば事実的に正確な出力を生成する。本研究は、知識誘導推論のためのフレームワークをVLMで導入し、マルチホップ検証に構造化知識グラフを活用する。本研究では,階層的・三点的・三点的・三点的・三点的知識表現を用いた枠組みの評価を行い,実効性と論理的推論性について分析した。
論文参考訳（メタデータ） (2025-11-25T17:34:32Z)
Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward [1.7971686967440696]
V$2$R-Benchは、LVLMの視覚変化ロバスト性を評価するためのベンチマークフレームワークである。本研究では,複雑な視覚言語タスクに優れた高度なモデルが,オブジェクト認識などの単純なタスクでは著しく性能が劣っていることを示す。これらの脆弱性は、パイプラインアーキテクチャにおけるエラーの蓄積と、マルチモーダルアライメントの不十分に起因する。
論文参考訳（メタデータ） (2025-04-23T14:01:32Z)
VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [21.61801132083334]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。 VLMベースの知覚とLLMベースの推論を統合する。その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文参考訳（メタデータ） (2025-03-19T11:05:42Z)
Unlocking the Capabilities of Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在の視覚言語モデル(VLM)は、マルチモーダルデータの理解において顕著な能力を示しているが、そのポテンシャルはディープフェイク検出に過小評価されている。本稿では,VLMの潜在能力を3つのコンポーネントで解き放つ新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-03-19T03:20:03Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文参考訳（メタデータ） (2024-12-12T18:55:18Z)
Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking [37.186306646752975]
マルチビュー3次元検出・追跡タスクのための統合オブジェクト認識時間学習フレームワークを提案する。提案モデルでは,異なる設計のベースラインよりも一貫した性能向上を実現している。
論文参考訳（メタデータ） (2024-07-03T16:10:19Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。本稿では,MLLMの検索とランク付けのための拡張手法を提案する。提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文参考訳（メタデータ） (2024-03-20T17:59:55Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting Generative AI-based Visualizations [1.709620026135923]
大規模言語モデル(LLM)は、可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。本稿では,LLMを用いて生成した可視化の評価をモデル化する問題に対処する。本稿では,原子部品の評価を分解する理論評価スタックEvaLLMを提案する。
論文参考訳（メタデータ） (2024-02-03T14:28:55Z)
SymbolicAI: A framework for logic-based approaches combining generative models and solvers [9.841285581456722]
生成過程における概念学習とフロー管理に論理的アプローチを取り入れた,汎用的でモジュール化されたフレームワークであるSybolicAIを紹介する。我々は,大規模言語モデル(LLM)を,自然言語命令と形式言語命令の両方に基づいてタスクを実行する意味的解決器として扱う。
論文参考訳（メタデータ） (2024-02-01T18:50:50Z)
An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文参考訳（メタデータ） (2022-05-16T11:23:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。