Fugu-MT 論文翻訳(概要): Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts

論文の概要: Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts

arxiv url: http://arxiv.org/abs/2412.16119v1
Date: Fri, 20 Dec 2024 18:05:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:09.052879
Title: Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts
Title（参考訳）: 低リソーススクリプトのためのLLM OCRのベンチマーク
Authors: Muhammad Abdullah Sohail, Salaar Masood, Hamza Iqbal,
Abstract要約: 本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study investigates the potential of Large Language Models (LLMs), particularly GPT-4o, for Optical Character Recognition (OCR) in low-resource scripts such as Urdu, Albanian, and Tajik, with English serving as a benchmark. Using a meticulously curated dataset of 2,520 images incorporating controlled variations in text length, font size, background color, and blur, the research simulates diverse real-world challenges. Results emphasize the limitations of zero-shot LLM-based OCR, particularly for linguistically complex scripts, highlighting the need for annotated datasets and fine-tuned models. This work underscores the urgency of addressing accessibility gaps in text digitization, paving the way for inclusive and robust OCR solutions for underserved languages.
Abstract（参考訳）: 本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のためのLarge Language Model(LLMs)、特にGPT-4oの可能性について検討する。テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。その結果、ゼロショットLLMベースのOCRの制限、特に言語的に複雑なスクリプトが強調され、注釈付きデータセットや微調整されたモデルの必要性が強調された。この研究は、テキストのデジタル化におけるアクセシビリティギャップへの対処の緊急性を強調し、未保存言語に対する包括的で堅牢なOCRソリューションの道を開いた。

関連論文リスト

synthocr-gen: A synthetic ocr dataset generator for low-resource languages- breaking the data barrier [0.0]
我々は低リソース言語用に特別に設計されたオープンソースのOCRデータセットジェネレータであるSynthOCR-Genを提案する。我々のツールは、デジタルUnicodeテキストコーパスを準備可能なトレーニングデータセットに変換することで、OCR開発における根本的なボトルネックに対処する。我々は,600,000サンプルの単語分割型Kashmiri OCRデータセットを作成した。
論文参考訳（メタデータ） (2026-01-22T17:01:33Z)
From Press to Pixels: Evolving Urdu Text Recognition [0.0]
本稿では,ウルドゥー語新聞における光学文字認識(OCR)のエンドツーエンドパイプラインについて紹介する。複雑なマルチカラムレイアウト、低解像度スキャン、およびNastaliqスクリプトのスタイリスティックなバリエーションによって引き起こされる課題に対処する。セグメンテーションにYOLOv11xを微調整し,記事に0.963の精度,コラムに0.970の精度を実現した。
論文参考訳（メタデータ） (2025-05-20T05:22:17Z)
PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language [2.1540520105079697]
我々はPashto OCRデータセット(PsOCR)を開発し、単語、行、文書レベルで境界ボックスを付加した100万枚の画像からなる。 PsOCRは1000種類のフォントファミリ、色、画像サイズ、レイアウトをカバーしている。 7つのオープンソースモデルを含む複数のLMMの性能を評価するため、10K画像のベンチマークサブセットが選択された。 Geminiはすべてのモデルの中で最高のパフォーマンスを達成しているが、オープンソースモデルではQwen-7Bが際立っている。
論文参考訳（メタデータ） (2025-05-15T07:58:38Z)
Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:01:59Z)
CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文参考訳（メタデータ） (2024-12-03T07:03:25Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation [0.0]
本研究では,TrOCRアーキテクチャのスペイン語への移行学習能力について検討する。我々は、英語のTrOCRエンコーダを言語固有のデコーダと統合し、この言語でモデルを訓練する。英語のTrOCRをスペイン語で微調整すると、固定データセットサイズに対する言語固有のデコーダよりも優れた認識が得られる。
論文参考訳（メタデータ） (2024-07-09T15:31:41Z)
Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文参考訳（メタデータ） (2024-06-13T12:43:40Z)
EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。 EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文参考訳（メタデータ） (2023-10-16T04:20:16Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
TransDocs: Optical Character Recognition with word to word translation [2.2336243882030025]
本研究は,光学文字認識(OCR)をML技術で改善することに焦点を当てる。この研究は、英語からスペイン語への翻訳のためのANKIデータセットに基づいている。
論文参考訳（メタデータ） (2023-04-15T21:40:14Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
OCR Post Correction for Endangered Language Texts [113.8242302688894]
我々は、3つの危惧言語でスキャンされた書籍の書き起こしのベンチマークデータセットを作成する。本稿では,汎用OCRツールがデータ・スカース・セッティングに対して堅牢でないかを体系的に分析する。我々は,このデータ・スカース・セッティングにおけるトレーニングを容易にするために,OCRポスト補正法を開発した。
論文参考訳（メタデータ） (2020-11-10T21:21:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。