Fugu-MT 論文翻訳(概要): Optimizing Nepali PDF Extraction: A Comparative Study of Parser and OCR Technologies

論文の概要: Optimizing Nepali PDF Extraction: A Comparative Study of Parser and OCR Technologies

arxiv url: http://arxiv.org/abs/2407.04577v2
Date: Tue, 09 Jul 2024 16:58:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 01:18:22.103712
Title: Optimizing Nepali PDF Extraction: A Comparative Study of Parser and OCR Technologies
Title（参考訳）: ネパールのPDF抽出の最適化:パーサーとOCR技術の比較研究
Authors: Prabin Paudel, Supriya Khadka, Ranju G. C., Rahul Shah,
Abstract要約: 本研究は、PDFからネパールのコンテンツを抽出するPDF解析と光学文字認識(OCR)手法を比較した。 OCR、特にPyTesseractは、Unicode以外のネパール文字の問題を克服している。ネパールのPDFに重点を置くプロジェクトを考えると、PyTesseractは最も適したライブラリとして現れます。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This research compares PDF parsing and Optical Character Recognition (OCR) methods for extracting Nepali content from PDFs. PDF parsing offers fast and accurate extraction but faces challenges with non-Unicode Nepali fonts. OCR, specifically PyTesseract, overcomes these challenges, providing versatility for both digital and scanned PDFs. The study reveals that while PDF parsers are faster, their accuracy fluctuates based on PDF types. In contrast, OCRs, with a focus on PyTesseract, demonstrate consistent accuracy at the expense of slightly longer extraction times. Considering the project's emphasis on Nepali PDFs, PyTesseract emerges as the most suitable library, balancing extraction speed and accuracy.
Abstract（参考訳）: 本研究では,PDFからネパールのコンテンツを抽出するためのPDF解析法とOCR法を比較した。 PDF解析は高速で正確な抽出を提供するが、Unicode以外のネパール語のフォントでは問題に直面している。 OCR、特にPyTesseractはこれらの課題を克服し、デジタルとスキャンされたPDFの両方に汎用性を提供します。研究によると、PDFパーサは高速であるが、その精度はPDFタイプに基づいて変動する。対照的に、PyTesseractに焦点をあてたOCRは、わずかに長い抽出時間を犠牲にして一貫した精度を示す。ネパールのPDFに重点を置いているプロジェクトを考えると、PyTesseractは抽出速度と精度のバランスを取りながら最も適したライブラリとして登場した。

関連論文リスト

Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。汎用OmniDocBenchに対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2026-02-13T14:22:10Z)
Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation [49.48204107529758]
我々はトークンオーバーフローを、圧縮された表現が与えられたクエリに応答する十分な情報を含んでいない状態として定義する。本稿では,非圧縮トークン表現から,クエリ非依存の飽和統計を確実に分離することを見出した。クエリとコンテキストの両方のxRAG表現上の軽量なプローブ分類器は平均0.72 AUC-ROCでオーバーフローを検出する。これらの結果は、クエリ非依存の診断からクエリ対応検出まで進歩し、低コストのプレLLMゲーティングにより、圧縮によるエラーを軽減できる。
論文参考訳（メタデータ） (2026-02-12T18:15:08Z)
LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR [0.29410438275861583]
我々は,多言語視覚言語モデルである textbfLightOnOCR-2-1B を提案する。大規模で高品質な蒸留混合物でスキャン、フランス語文書、科学PDFを強くカバーし、LightOnOCR-2はOlmOCR-Benchの最先端の結果を得る。私たちはApache 2.0でモデルチェックポイントをリリースし、データセットと textbfLightOnOCR-bbox-bench の評価をそれぞれのライセンスで公開しています。
論文参考訳（メタデータ） (2026-01-20T18:58:32Z)
Complete Evasion, Zero Modification: PDF Attacks on AI Text Detection [0.0]
我々は、PDF文書における視覚テキストレイアウトと抽出順序の相違を利用した新しい攻撃であるPDFuzzを提案する。我々は、人間とAIが生成するテキストのデータセットを用いて、ArguGPT検出器に対するこのアプローチを評価する。
論文参考訳（メタデータ） (2025-08-03T18:43:41Z)
TFIC: End-to-End Text-Focused Image Compression for Coding for Machines [50.86328069558113]
後続の光学文字認識(OCR)のためのテキスト固有の特徴を保持するために設計された画像圧縮システムを提案する。我々のエンコーディングプロセスはOCRモジュールに必要な時間の半分を必要としており、計算能力に制限のあるデバイスに特に適しています。
論文参考訳（メタデータ） (2025-03-25T09:36:13Z)
SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer [62.11796778482088]
本稿では,近接撮影とHRW撮影のオブジェクト検出のギャップを埋めるために,SparseFormerと呼ばれるモデル非依存のスパース視覚変換器を提案する。提案されたSparseFormerは、オブジェクトを含む可能性のあるスパース分散ウィンドウを精査するために、注意トークンを選択的に使用する。 2つのHRWベンチマークであるPANDAとDOTA-v1.0の実験により、提案されたSparseFormerは、最先端のアプローチよりも検出精度(最大5.8%)と速度(最大3倍)を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-02-11T03:21:25Z)
Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [58.419940585826744]
本稿では,確率的AIテキスト検出のためのグループ固有しきい値最適化アルゴリズムであるFairOPTを紹介する。属性(例えば、テキストの長さと書き込みスタイル)に基づいてデータをサブグループに分割し、FairOPTを実装して、各グループに対する決定しきい値の学習を行い、不一致を低減しました。我々のフレームワークは、後処理によるAI生成コンテンツ検出において、より堅牢な分類の道を開く。
論文参考訳（メタデータ） (2025-02-06T21:58:48Z)
Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway [0.2796197251957244]
S'ami言語で書かれたテキストのOCRを評価し改善する。以上の結果から,TranskribusとTrOCRはTesseractよりも優れていることがわかった。また、訓練済みの微調整モデルや手動アノテーションを補足することで、S'ami言語に対して正確なOCRが得られることを示す。
論文参考訳（メタデータ） (2025-01-13T13:07:51Z)
Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers [59.772673692679085]
セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
論文参考訳（メタデータ） (2024-12-21T09:30:45Z)
A Comparative Study of PDF Parsing Tools Across Diverse Document Categories [0.0]
DocLayNetデータセットを使用して、6つのドキュメントカテゴリで10の人気のあるPDF解析ツールを比較した。テキスト抽出では、PyMuPDFとpypdfiumは概して他のものよりも優れていたが、すべてのテキスト抽出は科学と特許の文書で苦労した。テーブル検出では、TATRは金融、特許、法と規制、科学のカテゴリーで優れている。
論文参考訳（メタデータ） (2024-10-13T15:11:31Z)
PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文参考訳（メタデータ） (2024-10-08T12:17:42Z)
Mero Nagarikta: Advanced Nepali Citizenship Data Extractor with Deep Learning-Powered Text Detection and OCR [0.0]
そこで本研究では,テキストオブジェクトの正確な検出にYOLOv8を用いるロバストシステムと,最適化されたPyTesseractに基づくOCRアルゴリズムを提案する。モバイルアプリケーションのコンテキスト内で実装されたこのシステムは、重要なテキスト情報の自動抽出を可能にする。ネパール文字に最適化されたPyTesseractは、柔軟性と精度に関して標準のOCRよりも優れていた。
論文参考訳（メタデータ） (2024-10-08T06:29:08Z)
Hiding Sensitive Information Using PDF Steganography [3.6533698604619587]
提案手法は,PDFストリーム演算子の実数値オペランドへの最小ビット挿入に基づく新しいPDFステガノグラフィーアルゴリズムを提案する。また,特定のカバーPDF文書にマルウェアを埋め込むケーススタディも提供する。
論文参考訳（メタデータ） (2024-05-01T20:54:12Z)
Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文参考訳（メタデータ） (2024-04-04T17:48:28Z)
LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。 125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2024-03-04T15:34:12Z)
User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文参考訳（メタデータ） (2023-02-26T21:41:15Z)
PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。 PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文参考訳（メタデータ） (2021-04-12T13:27:34Z)
PDFFlow: hardware accelerating parton density access [0.0]
パートン分布関数を高速に評価する新しいソフトウェアであるPDFFlow(PDFs)を提案する。 PDFFlowはハードウェアアクセラレータを持つプラットフォーム向けに設計されている。我々は,このライブラリの性能を粒子物理学コミュニティの複数のシナリオで評価する。
論文参考訳（メタデータ） (2020-12-15T11:22:12Z)
Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文参考訳（メタデータ） (2020-05-07T09:18:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。