論文の概要: Can Visual Language Models Replace OCR-Based Visual Question Answering Pipelines in Production? A Case Study in Retail
- arxiv url: http://arxiv.org/abs/2408.15626v1
- Date: Wed, 28 Aug 2024 08:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:53:03.820549
- Title: Can Visual Language Models Replace OCR-Based Visual Question Answering Pipelines in Production? A Case Study in Retail
- Title(参考訳): 視覚言語モデルはOCRに基づく視覚質問応答パイプラインを生産中に置き換えることができるか : 小売業における事例研究
- Authors: Bianca Lamm, Janis Keuper,
- Abstract要約: 本稿では,視覚質問応答タスクにおける視覚言語モデル(VLM)の性能と限界について分析する。
我々は、Retail-786kデータセットから得られたデータを用いて、事前訓練されたVLMの能力を調べ、画像内の広告商品に関する詳細な質問に答える。
- 参考スコア(独自算出の注目度): 8.04779839951237
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most production-level deployments for Visual Question Answering (VQA) tasks are still build as processing pipelines of independent steps including image pre-processing, object- and text detection, Optical Character Recognition (OCR) and (mostly supervised) object classification. However, the recent advances in vision Foundation Models [25] and Vision Language Models (VLMs) [23] raise the question if these custom trained, multi-step approaches can be replaced with pre-trained, single-step VLMs. This paper analyzes the performance and limits of various VLMs in the context of VQA and OCR [5, 9, 12] tasks in a production-level scenario. Using data from the Retail-786k [10] dataset, we investigate the capabilities of pre-trained VLMs to answer detailed questions about advertised products in images. Our study includes two commercial models, GPT-4V [16] and GPT-4o [17], as well as four open-source models: InternVL [5], LLaVA 1.5 [12], LLaVA-NeXT [13], and CogAgent [9]. Our initial results show, that there is in general no big performance gap between open-source and commercial models. However, we observe a strong task dependent variance in VLM performance: while most models are able to answer questions regarding the product brand and price with high accuracy, they completely fail at the same time to correctly identity the specific product name or discount. This indicates the problem of VLMs to solve fine-grained classification tasks as well to model the more abstract concept of discounts.
- Abstract(参考訳): Visual Question Answering (VQA)タスクのほとんどのプロダクションレベルのデプロイメントは、画像前処理、オブジェクトとテキストの検出、光学文字認識(OCR)、および(主に教師付き)オブジェクト分類を含む独立したステップの処理パイプラインとして構築されている。
しかしながら、ビジョンファウンデーションモデル [25] とビジョン言語モデル (VLM) [23] の最近の進歩は、これらのカスタムトレーニングされたマルチステップアプローチが、事前訓練されたシングルステップのVLMに置き換えられるかどうかという問題を提起している。
本稿では,VQA および OCR [5, 9, 12] タスクにおける実運用シナリオにおける各種 VLM の性能と限界を解析する。
本研究では,Retail-786k [10]データセットから得られたデータを用いて,事前学習したVLMを用いて,画像中の広告商品に関する詳細な質問に答える能力について検討する。
本研究は, GPT-4V [16] と GPT-4o [17] の2つの商用モデルと, InternVL [5], LLaVA 1.5 [12], LLaVA-NeXT [13], CogAgent [9] の4つのオープンソースモデルを含む。
最初の結果は、一般的にオープンソースモデルと商用モデルの間に大きなパフォーマンスギャップがないことを示している。
製品ブランドや価格に関する疑問に高い精度で答えることができるが、特定の製品名や割引を正しく識別するためには、同時に完全に失敗する。
このことは、より抽象的な割引の概念をモデル化するために、細粒度分類タスクを解くVLMの問題を示している。
関連論文リスト
- AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。
彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。
本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文 参考訳(メタデータ) (2024-09-26T16:31:50Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types [0.9217021281095907]
ユーザエクスペリエンスを支援するために、VQA(Visual Question-Answering)がいくつかのアプリケーションにおいて重要なユースケースとなっている。
本稿では,タスクタイプ,アプリケーションドメイン,知識タイプを付加した,確立されたVQAベンチマークから得られた新しいデータセットを提案する。
また、GPT-4oを用いて開発されたマルチモーダル評価指標であるGoEvalを導入し、人間の判断と56.71%の相関係数を達成した。
論文 参考訳(メタデータ) (2024-09-14T02:29:36Z) - RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Investigating Prompting Techniques for Zero- and Few-Shot Visual
Question Answering [7.640416680391081]
本稿では,ゼロおよび少数ショットの視覚質問応答(VQA)性能を向上させる効果的なプロンプト手法について検討する。
特定のテンプレートがVQAの結果に大きく影響し,戦略的テンプレート選択の必要性が強調される。
自由形式のオープンエンドVQA応答を評価する際の課題を軽減するために,簡単なLCM誘導前処理技術を導入する。
論文 参考訳(メタデータ) (2023-06-16T17:47:57Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。