論文の概要: Enhancement of Bengali OCR by Specialized Models and Advanced Techniques
for Diverse Document Types
- arxiv url: http://arxiv.org/abs/2402.05158v1
- Date: Wed, 7 Feb 2024 18:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:59:55.754168
- Title: Enhancement of Bengali OCR by Specialized Models and Advanced Techniques
for Diverse Document Types
- Title(参考訳): 特殊モデルによるベンガルocrの強化と多様な文書タイプのための高度化技術
- Authors: AKM Shahariar Azad Rabby, Hasmot Ali, Md. Majedul Islam, Sheikh
Abujar, Fuad Rahman
- Abstract要約: 本研究はベンガルOCRシステムに特有な機能を持たせたものである。
このシステムは、構造、アライメント、画像を保持しながら、文書レイアウトの再構築に優れる。
ワードセグメンテーションの特化モデルは、コンピュータコンポジション、文字圧縮、タイプライター、手書き文書など、様々なドキュメントタイプに対応している。
- 参考スコア(独自算出の注目度): 1.2499537119440245
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This research paper presents a unique Bengali OCR system with some
capabilities. The system excels in reconstructing document layouts while
preserving structure, alignment, and images. It incorporates advanced image and
signature detection for accurate extraction. Specialized models for word
segmentation cater to diverse document types, including computer-composed,
letterpress, typewriter, and handwritten documents. The system handles static
and dynamic handwritten inputs, recognizing various writing styles.
Furthermore, it has the ability to recognize compound characters in Bengali.
Extensive data collection efforts provide a diverse corpus, while advanced
technical components optimize character and word recognition. Additional
contributions include image, logo, signature and table recognition, perspective
correction, layout reconstruction, and a queuing module for efficient and
scalable processing. The system demonstrates outstanding performance in
efficient and accurate text extraction and analysis.
- Abstract(参考訳): 本研究はベンガルOCRシステムに特有な機能を持たせたものである。
このシステムは、構造、アライメント、画像を保持しながら、文書レイアウトを再構築する。
高度な画像と署名検出を組み込んで正確な抽出を行う。
単語セグメンテーションの特殊なモデルは、コンピュータ合成、レタープレス、タイプライター、手書き文書など様々な文書タイプに対応している。
このシステムは静的および動的手書き入力を処理し、様々な書き込みスタイルを認識する。
さらにベンガル語で複合文字を認識する能力もある。
膨大なデータ収集努力は多様なコーパスを提供し、高度な技術コンポーネントは文字と単語の認識を最適化する。
他にも、画像、ロゴ、シグネチャとテーブルの認識、パースペクティブの修正、レイアウトの再構成、効率的でスケーラブルな処理のためのキューングモジュールなどがある。
本システムは,効率的かつ正確なテキスト抽出と解析において優れた性能を示す。
関連論文リスト
- Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T11:44:46Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Information Extraction from Scanned Invoice Images using Text Analysis
and Layout Features [0.0]
OCRMinerは、人間が使用するのと同様の方法で文書を処理するように設計されている。
このシステムは、英語で90%、チェコ語で88%の請求データを復元することができる。
論文 参考訳(メタデータ) (2022-08-08T09:46:33Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - Fourier Document Restoration for Robust Document Dewarping and
Recognition [73.44057202891011]
本稿では、異なる歪みで文書を復元できるフーリエ文書復元ネットワークであるFDRNetについて述べる。
ドキュメントをフレキシブルなThin-Plate Spline変換でデワープし、トレーニング時に変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これは、デウォープとテキスト認識の両方のタスクにおいて、最先端の技術をはるかに上回る。
論文 参考訳(メタデータ) (2022-03-18T12:39:31Z) - DocBed: A Multi-Stage OCR Solution for Documents with Complex Layouts [2.885058600042882]
この研究は、21の異なる州から3000の完全な注釈付き現実世界の新聞画像のデータセットを公開している。
既存の光学式文字認識(OCR)エンジンの先駆けとしてレイアウトセグメンテーションを提案する。
独立したレイアウトセグメンテーションとエンドツーエンドのOCRのための、徹底的で構造化された評価プロトコルを提供する。
論文 参考訳(メタデータ) (2022-02-03T05:21:31Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - Handwriting Classification for the Analysis of Art-Historical Documents [6.918282834668529]
We focus on the analysis of handwriting in scanned document from the art-historic Archive of the WPI。
視覚構造に基づいて抽出されたテキストの断片をラベル付けする手書き分類モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T13:06:46Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。