Fugu-MT 論文翻訳(概要): Advancements and Challenges in Arabic Optical Character Recognition: A Comprehensive Survey

論文の概要: Advancements and Challenges in Arabic Optical Character Recognition: A Comprehensive Survey

arxiv url: http://arxiv.org/abs/2312.11812v1
Date: Tue, 19 Dec 2023 03:01:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 17:08:44.869153
Title: Advancements and Challenges in Arabic Optical Character Recognition: A Comprehensive Survey
Title（参考訳）: アラビア語光文字認識の進歩と課題 : 包括的調査
Authors: Mahmoud SalahEldin Kasem, Mohamed Mahmoud, Hyun-Soo Kang
Abstract要約: 本稿では,アラビア語光文字認識(OCR)に関する現代的応用,方法論,課題の徹底的なレビューを提案する。 OCRプロセス全体で広く利用されている技術について、徹底的な分析を行い、改善された成果を示す最も効果的なアプローチを識別する努力を払っている。本稿では,最先端技術と手法の提示に加えて,アラビアOCRの領域における研究ギャップを批判的に識別する。
参考スコア（独自算出の注目度）: 0.6629765271909505
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Optical character recognition (OCR) is a vital process that involves the extraction of handwritten or printed text from scanned or printed images, converting it into a format that can be understood and processed by machines. This enables further data processing activities such as searching and editing. The automatic extraction of text through OCR plays a crucial role in digitizing documents, enhancing productivity, improving accessibility, and preserving historical records. This paper seeks to offer an exhaustive review of contemporary applications, methodologies, and challenges associated with Arabic Optical Character Recognition (OCR). A thorough analysis is conducted on prevailing techniques utilized throughout the OCR process, with a dedicated effort to discern the most efficacious approaches that demonstrate enhanced outcomes. To ensure a thorough evaluation, a meticulous keyword-search methodology is adopted, encompassing a comprehensive analysis of articles relevant to Arabic OCR, including both backward and forward citation reviews. In addition to presenting cutting-edge techniques and methods, this paper critically identifies research gaps within the realm of Arabic OCR. By highlighting these gaps, we shed light on potential areas for future exploration and development, thereby guiding researchers toward promising avenues in the field of Arabic OCR. The outcomes of this study provide valuable insights for researchers, practitioners, and stakeholders involved in Arabic OCR, ultimately fostering advancements in the field and facilitating the creation of more accurate and efficient OCR systems for the Arabic language.
Abstract（参考訳）: 光文字認識(OCR)は、スキャンされた画像や印刷された画像から手書きまたは印刷されたテキストを抽出し、それを機械が理解し処理できるフォーマットに変換する、重要なプロセスである。これにより、検索や編集などのさらなるデータ処理アクティビティが可能になる。 ocrによるテキストの自動抽出は、ドキュメントのデジタル化、生産性の向上、アクセシビリティ向上、履歴保存において重要な役割を果たす。本稿では,アラビア語光文字認識(OCR)の現代的応用,方法論,課題を概観する。 OCRプロセスを通じて広く利用されている技術について、徹底的な分析を行い、改善された成果を示す最も効果的なアプローチを識別する。徹底的な評価を確保するために、アラビア語のOCRに関連する記事の総合的な分析を包括的に含む、厳密なキーワード検索手法が採用されている。本稿では,最先端技術と手法の提示に加えて,アラビアOCRの領域における研究ギャップを批判的に識別する。これらのギャップを強調することによって、将来の探査と開発のための潜在的な領域に光を当て、アラブのOCR分野における有望な道へと向かわせた。この研究の結果は、アラビア語のOCRに関わる研究者、実践者、ステークホルダーに貴重な洞察を与え、最終的にこの分野の進歩を促進し、アラビア語のより正確で効率的なOCRシステムの構築を促進する。

関連論文リスト

TextShield-R1: Reinforced Reasoning for Tampered Text Detection [48.66129052598456]
TextShield-R1は、最初の強化学習ベースのMLLMソリューションである。本稿では,テキスト検出のためのMLLMを十分に準備した,手軽でハードなカリキュラムであるForensic Continual Pre-trainingを紹介する。また、テキストフォレスシクス推論(TFR)ベンチマークを導入し、16言語で45万以上の実画像と改ざん画像を比較した。
論文参考訳（メタデータ） (2026-02-23T13:26:18Z)
Low-Resource Heuristics for Bahnaric Optical Character Recognition Improvement [3.2537431443459255]
ベトナム、カンボジア、ラオスで話されている少数言語であるBahnarは、限られた研究とデータ可用性のため、重要な保存上の課題に直面している。本研究は,光学文字認識(OCR)技術を用いて,バーナー語文書の正確なデジタル化の必要性に対処する。本稿では,高度なテーブルと非テーブル検出技術と確率に基づく後処理を組み合わせた総合的なアプローチを提案し,認識精度を向上させる。
論文参考訳（メタデータ） (2026-01-06T12:22:03Z)
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding [24.9462694200992]
KITAB-Benchは、現在の評価システムのギャップを埋める包括的なアラビアOCRベンチマークである。現代の視覚言語モデル(GPT-4、Gemini、Qwenなど)は、従来のOCRアプローチを平均60%の文字誤り率(CER)で上回っている。本研究はアラビア文書分析手法の改良を促進するための厳格な評価枠組みを確立する。
論文参考訳（メタデータ） (2025-02-20T18:41:23Z)
CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文参考訳（メタデータ） (2024-12-03T07:03:25Z)
A comprehensive survey of oracle character recognition: challenges, benchmarks, and beyond [39.542007188857376]
オラクルの文字認識は考古学、古生物学、歴史文化研究と交差する重要な分野となっている。伝統的な神託文字認識法は、専門家による手作業による解釈に大きく依存している。近年のパターン認識とディープラーニングの進歩により、オラクル文字認識の自動化に向けた動きが高まっている。
論文参考訳（メタデータ） (2024-11-18T07:50:22Z)
Image Based Character Recognition, Documentation System To Decode Inscription From Temple [0.0]
このプロジェクトは、ブリハデシュワラー神殿の壁に発見された10世紀のタミル語碑文に適用された光学的文字認識OCR法の訓練と分析を行っている。選択されたOCRには、生データを前処理するために現代的なICR技術を使用した広く使われているOCRエンジンであるTesseractと、我々のモデルを微調整するためのボックス編集ソフトウェアが含まれる。テッセラクトによる分析は、古代タミル文字のニュアンスを正確に解読する効果を評価することを目的としている。
論文参考訳（メタデータ） (2024-05-21T17:20:35Z)
Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文参考訳（メタデータ） (2023-10-23T18:11:32Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文参考訳（メタデータ） (2023-02-26T21:41:15Z)
Review of coreference resolution in English and Persian [8.604145658574689]
参照解決(CR)は、同じ現実世界の実体を参照する表現を識別する。本稿では、コア参照とアナフォラ分解能にまたがるCRの最近の進歩について考察する。ペルシャのCRの独特な課題を認識し、このアンダーリソース言語に焦点をあてる。
論文参考訳（メタデータ） (2022-11-08T18:14:09Z)
MMOCR: A Comprehensive Toolbox for Text Detection, Recognition and Understanding [70.16678926775475]
MMOCRは、テキストの検出と認識のためのオープンソースのツールボックスである。それは14の最先端のアルゴリズムを実装しており、これは私たちが現在知っているすべてのオープンソースのOCRプロジェクトよりも多い。
論文参考訳（メタデータ） (2021-08-14T14:10:23Z)
ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction [70.71240097723745]
SROIEの技術的課題、重要性、および巨大な商業的可能性を認識し、私たちはSROIEでICDAR 2019コンペティションを開催しました。競争のために1000全体のスキャンされたレシート画像とアノテーションを備えた新しいデータセットが作成されます。本報告では,モチベーション,競合データセット,タスク定義,評価プロトコル,提出統計,提案手法の性能,結果分析について述べる。
論文参考訳（メタデータ） (2021-03-18T12:33:41Z)
A Survey of Deep Learning Approaches for OCR and Document Understanding [68.65995739708525]
我々は、英語で書かれた文書の文書理解のための様々な手法をレビューする。文献に現れる方法論を集約し,この領域を探索する研究者の跳躍点として機能させる。
論文参考訳（メタデータ） (2020-11-27T03:05:59Z)
Handwritten Optical Character Recognition (OCR): A Comprehensive Systematic Literature Review (SLR) [0.0]
本論文は,OCRにおける技術成果と技術の現状を示すことを目的としている。光文字認識は、様々な種類の文書や画像を分析可能、編集可能、検索可能なデータに変換することができる科学である。
論文参考訳（メタデータ） (2020-01-01T04:55:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。