論文の概要: On the Hidden Mystery of OCR in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2305.07895v4
- Date: Mon, 19 Jun 2023 03:36:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 02:22:25.029532
- Title: On the Hidden Mystery of OCR in Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルにおけるOCRの隠れミステリーについて
- Authors: Yuliang Liu, Zhang Li, Hongliang Li, Wenwen Yu, Yang Liu, Biao Yang,
Mingxin Huang, Dezhi Peng, Mingyu Liu, Mingrui Chen, Chunyuan Li, Xucheng
Yin, Cheng-lin Liu, Lianwen Jin, Xiang Bai
- Abstract要約: 大規模モデルは近年,自然言語処理やマルチモーダル視覚言語学習において重要な役割を担っている。
既存のマルチモーダルモデルについて総合的研究を行い,テキスト認識の性能評価を行った。
これらのモデルの長所と短所は,単語認識のセマンティック理解に依存している。
- 参考スコア(独自算出の注目度): 97.88573234613177
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large models have recently played a dominant role in natural language
processing and multimodal vision-language learning. It remains less explored
about their efficacy in text-related visual tasks. We conducted a comprehensive
study of existing publicly available multimodal models, evaluating their
performance in text recognition (document text, artistic text, handwritten
text, scene text), text-based visual question answering (document text, scene
text, and bilingual text), key information extraction (receipts, documents, and
nutrition facts) and handwritten mathematical expression recognition. Our
findings reveal strengths and weaknesses in these models, which primarily rely
on semantic understanding for word recognition and exhibit inferior perception
of individual character shapes. They also display indifference towards text
length and have limited capabilities in detecting finegrained features in
images. Consequently, these results demonstrate that even the current most
powerful large multimodal models cannot match domain-specific methods in
traditional text tasks and face greater challenges in more complex tasks. Most
importantly, the baseline results showcased in this study could provide a
foundational framework for the conception and assessment of innovative
strategies targeted at enhancing zero-shot multimodal techniques. Evaluation
pipeline is available at https://github.com/Yuliang-Liu/MultimodalOCR.
- Abstract(参考訳): 大規模モデルは近年,自然言語処理やマルチモーダル視覚言語学習において重要な役割を担っている。
テキスト関連視覚タスクにおける有効性については,いまだ検討されていない。
本研究では,テキスト認識(文書テキスト,芸術テキスト,手書きテキスト,シーンテキスト),テキストベースの視覚的質問応答(文書テキスト,シーンテキスト,バイリンガルテキスト),キー情報抽出(受信情報,文書,栄養情報),手書きの数学的表現認識において,既存のマルチモーダルモデルの総合的研究を行った。
これらのモデルの強みと弱みは、主に単語認識の意味的理解に依存し、個々の文字形状に対する劣った知覚を示す。
また、テキスト長に対する差分を表示し、画像のきめ細かい特徴を検出する能力に制限がある。
その結果,現在最も強力な大規模マルチモーダルモデルでさえ,従来のテキストタスクではドメイン固有メソッドと一致せず,より複雑なタスクでは大きな課題に直面していることがわかった。
最も重要な点は,ゼロショットマルチモーダル技術の向上を目的とした革新的戦略の構想と評価のための基礎的枠組みを,本研究で提示した基礎的結果が提供できることである。
評価パイプラインはhttps://github.com/yuliang-liu/multimodalocrで利用可能である。
関連論文リスト
- TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and
In-depth Evaluation [33.66939971907121]
評価の結果,GPT-4Vはラテン内容の認識や理解に優れていたが,多言語シナリオや複雑なタスクに苦慮していることが明らかとなった。
一般に、多様なOCRタスクを扱う汎用性にもかかわらず、GPT-4Vは既存の最先端のOCRモデルより優れているわけではない。
論文 参考訳(メタデータ) (2023-10-25T17:38:55Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。