論文の概要: Optimizing Nepali PDF Extraction: A Comparative Study of Parser and OCR Technologies
- arxiv url: http://arxiv.org/abs/2407.04577v2
- Date: Tue, 09 Jul 2024 16:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 20:16:01.808845
- Title: Optimizing Nepali PDF Extraction: A Comparative Study of Parser and OCR Technologies
- Title(参考訳): ネパールのPDF抽出の最適化:パーサーとOCR技術の比較研究
- Authors: Prabin Paudel, Supriya Khadka, Ranju G. C., Rahul Shah,
- Abstract要約: 本研究は、PDFからネパールのコンテンツを抽出するPDF解析と光学文字認識(OCR)手法を比較した。
OCR、特にPyTesseractは、Unicode以外のネパール文字の問題を克服している。
ネパールのPDFに重点を置くプロジェクトを考えると、PyTesseractは最も適したライブラリとして現れます。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This research compares PDF parsing and Optical Character Recognition (OCR) methods for extracting Nepali content from PDFs. PDF parsing offers fast and accurate extraction but faces challenges with non-Unicode Nepali fonts. OCR, specifically PyTesseract, overcomes these challenges, providing versatility for both digital and scanned PDFs. The study reveals that while PDF parsers are faster, their accuracy fluctuates based on PDF types. In contrast, OCRs, with a focus on PyTesseract, demonstrate consistent accuracy at the expense of slightly longer extraction times. Considering the project's emphasis on Nepali PDFs, PyTesseract emerges as the most suitable library, balancing extraction speed and accuracy.
- Abstract(参考訳): 本研究では,PDFからネパールのコンテンツを抽出するためのPDF解析法とOCR法を比較した。
PDF解析は高速で正確な抽出を提供するが、Unicode以外のネパール語のフォントでは問題に直面している。
OCR、特にPyTesseractはこれらの課題を克服し、デジタルとスキャンされたPDFの両方に汎用性を提供します。
研究によると、PDFパーサは高速であるが、その精度はPDFタイプに基づいて変動する。
対照的に、PyTesseractに焦点をあてたOCRは、わずかに長い抽出時間を犠牲にして一貫した精度を示す。
ネパールのPDFに重点を置いているプロジェクトを考えると、PyTesseractは抽出速度と精度のバランスを取りながら最も適したライブラリとして登場した。
関連論文リスト
- SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer [62.11796778482088]
本稿では,近接撮影とHRW撮影のオブジェクト検出のギャップを埋めるために,SparseFormerと呼ばれるモデル非依存のスパース視覚変換器を提案する。
提案されたSparseFormerは、オブジェクトを含む可能性のあるスパース分散ウィンドウを精査するために、注意トークンを選択的に使用する。
2つのHRWベンチマークであるPANDAとDOTA-v1.0の実験により、提案されたSparseFormerは、最先端のアプローチよりも検出精度(最大5.8%)と速度(最大3倍)を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-02-11T03:21:25Z) - Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway [0.2796197251957244]
S'ami言語で書かれたテキストのOCRを評価し改善する。
以上の結果から,TranskribusとTrOCRはTesseractよりも優れていることがわかった。
また、訓練済みの微調整モデルや手動アノテーションを補足することで、S'ami言語に対して正確なOCRが得られることを示す。
論文 参考訳(メタデータ) (2025-01-13T13:07:51Z) - Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers [59.772673692679085]
セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。
まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。
第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - A Comparative Study of PDF Parsing Tools Across Diverse Document Categories [0.0]
DocLayNetデータセットを使用して、6つのドキュメントカテゴリで10の人気のあるPDF解析ツールを比較した。
テキスト抽出では、PyMuPDFとpypdfiumは概して他のものよりも優れていたが、すべてのテキスト抽出は科学と特許の文書で苦労した。
テーブル検出では、TATRは金融、特許、法と規制、科学のカテゴリーで優れている。
論文 参考訳(メタデータ) (2024-10-13T15:11:31Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - Mero Nagarikta: Advanced Nepali Citizenship Data Extractor with Deep Learning-Powered Text Detection and OCR [0.0]
そこで本研究では,テキストオブジェクトの正確な検出にYOLOv8を用いるロバストシステムと,最適化されたPyTesseractに基づくOCRアルゴリズムを提案する。
モバイルアプリケーションのコンテキスト内で実装されたこのシステムは、重要なテキスト情報の自動抽出を可能にする。
ネパール文字に最適化されたPyTesseractは、柔軟性と精度に関して標準のOCRよりも優れていた。
論文 参考訳(メタデータ) (2024-10-08T06:29:08Z) - Hiding Sensitive Information Using PDF Steganography [3.6533698604619587]
提案手法は,PDFストリーム演算子の実数値オペランドへの最小ビット挿入に基づく新しいPDFステガノグラフィーアルゴリズムを提案する。
また,特定のカバーPDF文書にマルウェアを埋め込むケーススタディも提供する。
論文 参考訳(メタデータ) (2024-05-01T20:54:12Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - PDFFlow: hardware accelerating parton density access [0.0]
パートン分布関数を高速に評価する新しいソフトウェアであるPDFFlow(PDFs)を提案する。
PDFFlowはハードウェアアクセラレータを持つプラットフォーム向けに設計されている。
我々は,このライブラリの性能を粒子物理学コミュニティの複数のシナリオで評価する。
論文 参考訳(メタデータ) (2020-12-15T11:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。