Fugu-MT 論文翻訳(概要): Context-Independent OCR with Multimodal LLMs: Effects of Image Resolution and Visual Complexity

論文の概要: Context-Independent OCR with Multimodal LLMs: Effects of Image Resolution and Visual Complexity

arxiv url: http://arxiv.org/abs/2503.23667v1
Date: Mon, 31 Mar 2025 02:09:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:57.234056
Title: Context-Independent OCR with Multimodal LLMs: Effects of Image Resolution and Visual Complexity
Title（参考訳）: マルチモーダルLLMを用いたコンテキスト独立型OCR:画像分解能と視覚的複雑度の影響
Authors: Kotaro Inoue,
Abstract要約: マルチモーダル大規模言語モデル (LLM) は様々な産業分野において大きな注目を集めている。本研究では,多様な視覚的複雑度を持つ単一文字画像を用いた文脈非依存のOCRタスクについて検討する。以上の結果から, マルチモーダルLLMは従来のOCR法と約300ppiで一致するが, 性能は150ppi以下であった。
参考スコア（独自算出の注目度）: 1.8130068086063336
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to their high versatility in tasks such as image captioning, document analysis, and automated content generation, multimodal Large Language Models (LLMs) have attracted significant attention across various industrial fields. In particular, they have been shown to surpass specialized models in Optical Character Recognition (OCR). Nevertheless, their performance under different image conditions remains insufficiently investigated, and individual character recognition is not guaranteed due to their reliance on contextual cues. In this work, we examine a context-independent OCR task using single-character images with diverse visual complexities to determine the conditions for accurate recognition. Our findings reveal that multimodal LLMs can match conventional OCR methods at about 300 ppi, yet their performance deteriorates significantly below 150 ppi. Additionally, we observe a very weak correlation between visual complexity and misrecognitions, whereas a conventional OCR-specific model exhibits no correlation. These results suggest that image resolution and visual complexity may play an important role in the reliable application of multimodal LLMs to OCR tasks that require precise character-level accuracy.
Abstract（参考訳）: 画像キャプションや文書解析,自動コンテンツ生成といったタスクの汎用性の高さから,多モーダル大規模言語モデル (LLM) は様々な産業分野において注目されている。特に、光学文字認識(OCR)の特殊モデルを上回ることが示されている。それでも、異なる画像条件下でのパフォーマンスは十分に調査されておらず、個々の文字認識は文脈的手がかりに依存しているため保証されない。本研究では,視覚的特徴が多様である単一文字画像を用いた文脈非依存のOCRタスクについて検討し,正確な認識条件を決定する。以上の結果から, マルチモーダルLCMは従来のOCR法と約300ppiで一致するが, 性能は150ppi以下であった。さらに,視覚的複雑度と誤認識の相関が極めて弱いのに対して,従来のOCRモデルでは相関は認められない。これらの結果は,画像の解像度と視覚的複雑さが,正確な文字レベルの精度を必要とするOCRタスクへのマルチモーダルLLMの信頼性向上に重要な役割を果たしていることを示唆している。

関連論文リスト

CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文参考訳（メタデータ） (2025-03-13T08:43:24Z)
Ocean-OCR: Towards General OCR Application via a Vision-Language Model [6.70908296002235]
textbfOcean-OCRは3B MLLMで、様々なOCRシナリオにおける最先端性能と、一般的なタスクにおける同等の理解能力を持つ。我々は、オープンソースのOCRベンチマークや様々なOCRシナリオにおける包括的な実験を通じて、Ocean-OCRの優位性を実証する。
論文参考訳（メタデータ） (2025-01-26T15:20:39Z)
CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文参考訳（メタデータ） (2024-12-03T07:03:25Z)
DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文参考訳（メタデータ） (2024-04-19T09:28:16Z)
MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文参考訳（メタデータ） (2024-01-30T18:09:11Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。