論文の概要: Optimizing Nepali PDF Extraction: A Comparative Study of Parser and OCR Technologies
- arxiv url: http://arxiv.org/abs/2407.04577v2
- Date: Tue, 09 Jul 2024 16:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 20:16:01.808845
- Title: Optimizing Nepali PDF Extraction: A Comparative Study of Parser and OCR Technologies
- Title(参考訳): ネパールのPDF抽出の最適化:パーサーとOCR技術の比較研究
- Authors: Prabin Paudel, Supriya Khadka, Ranju G. C., Rahul Shah,
- Abstract要約: 本研究は、PDFからネパールのコンテンツを抽出するPDF解析と光学文字認識(OCR)手法を比較した。
OCR、特にPyTesseractは、Unicode以外のネパール文字の問題を克服している。
ネパールのPDFに重点を置くプロジェクトを考えると、PyTesseractは最も適したライブラリとして現れます。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This research compares PDF parsing and Optical Character Recognition (OCR) methods for extracting Nepali content from PDFs. PDF parsing offers fast and accurate extraction but faces challenges with non-Unicode Nepali fonts. OCR, specifically PyTesseract, overcomes these challenges, providing versatility for both digital and scanned PDFs. The study reveals that while PDF parsers are faster, their accuracy fluctuates based on PDF types. In contrast, OCRs, with a focus on PyTesseract, demonstrate consistent accuracy at the expense of slightly longer extraction times. Considering the project's emphasis on Nepali PDFs, PyTesseract emerges as the most suitable library, balancing extraction speed and accuracy.
- Abstract(参考訳): 本研究では,PDFからネパールのコンテンツを抽出するためのPDF解析法とOCR法を比較した。
PDF解析は高速で正確な抽出を提供するが、Unicode以外のネパール語のフォントでは問題に直面している。
OCR、特にPyTesseractはこれらの課題を克服し、デジタルとスキャンされたPDFの両方に汎用性を提供します。
研究によると、PDFパーサは高速であるが、その精度はPDFタイプに基づいて変動する。
対照的に、PyTesseractに焦点をあてたOCRは、わずかに長い抽出時間を犠牲にして一貫した精度を示す。
ネパールのPDFに重点を置いているプロジェクトを考えると、PyTesseractは抽出速度と精度のバランスを取りながら最も適したライブラリとして登場した。
関連論文リスト
- PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - Mero Nagarikta: Advanced Nepali Citizenship Data Extractor with Deep Learning-Powered Text Detection and OCR [0.0]
そこで本研究では,テキストオブジェクトの正確な検出にYOLOv8を用いるロバストシステムと,最適化されたPyTesseractに基づくOCRアルゴリズムを提案する。
モバイルアプリケーションのコンテキスト内で実装されたこのシステムは、重要なテキスト情報の自動抽出を可能にする。
ネパール文字に最適化されたPyTesseractは、柔軟性と精度に関して標準のOCRよりも優れていた。
論文 参考訳(メタデータ) (2024-10-08T06:29:08Z) - Hiding Sensitive Information Using PDF Steganography [3.6533698604619587]
提案手法は,PDFストリーム演算子の実数値オペランドへの最小ビット挿入に基づく新しいPDFステガノグラフィーアルゴリズムを提案する。
また,特定のカバーPDF文書にマルウェアを埋め込むケーススタディも提供する。
論文 参考訳(メタデータ) (2024-05-01T20:54:12Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - PDFFlow: hardware accelerating parton density access [0.0]
パートン分布関数を高速に評価する新しいソフトウェアであるPDFFlow(PDFs)を提案する。
PDFFlowはハードウェアアクセラレータを持つプラットフォーム向けに設計されている。
我々は,このライブラリの性能を粒子物理学コミュニティの複数のシナリオで評価する。
論文 参考訳(メタデータ) (2020-12-15T11:22:12Z) - A machine learning approach to galaxy properties: joint redshift-stellar
mass probability distributions with Random Forest [0.0]
本稿では、ランダムフォレスト(RF)機械学習アルゴリズムを用いて、高精度な赤方偏移質量確率分布関数(PDF)が得られることを実証する。
我々はdark energy survey (des) とcosmos 2015カタログの赤方偏移と恒星質量の組合せを用いている。
精度に加えて、RFは非常に高速で、消費者コンピュータハードウェアでわずか$ 6$で数百万の銀河の合同PDFを計算することができます。
論文 参考訳(メタデータ) (2020-12-10T19:00:15Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。