Fugu-MT 論文翻訳(概要): Enhancement of Bengali OCR by Specialized Models and Advanced Techniques for Diverse Document Types

論文の概要: Enhancement of Bengali OCR by Specialized Models and Advanced Techniques for Diverse Document Types

arxiv url: http://arxiv.org/abs/2402.05158v1
Date: Wed, 7 Feb 2024 18:02:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 17:59:55.754168
Title: Enhancement of Bengali OCR by Specialized Models and Advanced Techniques for Diverse Document Types
Title（参考訳）: 特殊モデルによるベンガルocrの強化と多様な文書タイプのための高度化技術
Authors: AKM Shahariar Azad Rabby, Hasmot Ali, Md. Majedul Islam, Sheikh Abujar, Fuad Rahman
Abstract要約: 本研究はベンガルOCRシステムに特有な機能を持たせたものである。このシステムは、構造、アライメント、画像を保持しながら、文書レイアウトの再構築に優れる。ワードセグメンテーションの特化モデルは、コンピュータコンポジション、文字圧縮、タイプライター、手書き文書など、様々なドキュメントタイプに対応している。
参考スコア（独自算出の注目度）: 1.2499537119440245
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This research paper presents a unique Bengali OCR system with some capabilities. The system excels in reconstructing document layouts while preserving structure, alignment, and images. It incorporates advanced image and signature detection for accurate extraction. Specialized models for word segmentation cater to diverse document types, including computer-composed, letterpress, typewriter, and handwritten documents. The system handles static and dynamic handwritten inputs, recognizing various writing styles. Furthermore, it has the ability to recognize compound characters in Bengali. Extensive data collection efforts provide a diverse corpus, while advanced technical components optimize character and word recognition. Additional contributions include image, logo, signature and table recognition, perspective correction, layout reconstruction, and a queuing module for efficient and scalable processing. The system demonstrates outstanding performance in efficient and accurate text extraction and analysis.
Abstract（参考訳）: 本研究はベンガルOCRシステムに特有な機能を持たせたものである。このシステムは、構造、アライメント、画像を保持しながら、文書レイアウトを再構築する。高度な画像と署名検出を組み込んで正確な抽出を行う。単語セグメンテーションの特殊なモデルは、コンピュータ合成、レタープレス、タイプライター、手書き文書など様々な文書タイプに対応している。このシステムは静的および動的手書き入力を処理し、様々な書き込みスタイルを認識する。さらにベンガル語で複合文字を認識する能力もある。膨大なデータ収集努力は多様なコーパスを提供し、高度な技術コンポーネントは文字と単語の認識を最適化する。他にも、画像、ロゴ、シグネチャとテーブルの認識、パースペクティブの修正、レイアウトの再構成、効率的でスケーラブルな処理のためのキューングモジュールなどがある。本システムは,効率的かつ正確なテキスト抽出と解析において優れた性能を示す。

関連論文リスト

MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。 2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文参考訳（メタデータ） (2025-11-13T15:12:17Z)
Enhanced Hybrid Technique for Efficient Digitization of Handwritten Marksheets [0.0]
本研究では,テーブル検出用OpenCVとシーケンシャル手書きテキスト認識用PaddleOCRを組み合わせたハイブリッド手法を提案する。 yoLOv8とModified YOLOv8は、PaddleOCRと共に検出されたテーブル構造内で手書きのテキスト認識のために実装されている。実験の結果、YOLOv8 Modifiedは92.72パーセントの精度を達成し、PaddleOCR 91.37パーセント、YOLOv8 88.91パーセントを上回った。
論文参考訳（メタデータ） (2025-08-22T10:57:27Z)
A document is worth a structured record: Principled inductive bias design for document recognition [3.4332178437507936]
最先端のアプローチは、文書認識をコンピュータビジョン問題として扱う。文書からレコードへの書き起こしタスクとして文書認識をフレーム化する新しい視点を提案する。これは、その転写に固有の本質的な構造に基づく文書の自然なグループ化を意味する。
論文参考訳（メタデータ） (2025-07-11T10:02:08Z)
Digitization of Document and Information Extraction using OCR [0.0]
本論文は,光学文字認識(OCR)技術とLarge Language Models(LLM)を融合したテキスト抽出フレームワークを提案する。スキャンされたファイルはOCRエンジンで処理され、デジタルファイルはレイアウト対応のライブラリを通して解釈される。そして、抽出した原文をLLMで解析して、キー値対を特定し、あいまいさを解消する。
論文参考訳（メタデータ） (2025-06-11T16:03:01Z)
Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文参考訳（メタデータ） (2025-05-30T17:39:14Z)
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文参考訳（メタデータ） (2025-03-17T21:36:31Z)
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents [7.358946120326249]
本稿では,テキスト抽出ツールである'Eclairについて紹介する。画像が与えられたら、"Eclairは、バウンディングボックスとその対応するセマンティッククラスとともに、読み順でフォーマットされたテキストを抽出できる。このベンチマークで'Eclair'は最先端の精度を達成し、主要なメトリクスで他のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-02-06T17:07:22Z)
UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文参考訳（メタデータ） (2024-09-06T08:02:43Z)
DANIEL: A fast Document Attention Network for Information Extraction and Labelling of handwritten documents [4.298545628576284]
手書き文書理解のための完全なエンドツーエンドアーキテクチャであるDANIEL(Document Attention Network for Information extract and Labelling)を紹介する。 DANIELは全ページ文書上でレイアウト認識、手書き認識、名前付きエンティティ認識を行う。複数の言語、レイアウト、タスクを同時に学習できる。
論文参考訳（メタデータ） (2024-07-12T09:09:56Z)
Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。 DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-05-30T07:25:23Z)
Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。 ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文参考訳（メタデータ） (2024-03-25T08:00:43Z)
Optimization of Image Processing Algorithms for Character Recognition in Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文参考訳（メタデータ） (2023-11-27T11:44:46Z)
Boosting Modern and Historical Handwritten Text Recognition with Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文参考訳（メタデータ） (2022-08-17T06:55:54Z)
Information Extraction from Scanned Invoice Images using Text Analysis and Layout Features [0.0]
OCRMinerは、人間が使用するのと同様の方法で文書を処理するように設計されている。このシステムは、英語で90%、チェコ語で88%の請求データを復元することができる。
論文参考訳（メタデータ） (2022-08-08T09:46:33Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
DocBed: A Multi-Stage OCR Solution for Documents with Complex Layouts [2.885058600042882]
この研究は、21の異なる州から3000の完全な注釈付き現実世界の新聞画像のデータセットを公開している。既存の光学式文字認識(OCR)エンジンの先駆けとしてレイアウトセグメンテーションを提案する。独立したレイアウトセグメンテーションとエンドツーエンドのOCRのための、徹底的で構造化された評価プロトコルを提供する。
論文参考訳（メタデータ） (2022-02-03T05:21:31Z)
DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文参考訳（メタデータ） (2021-01-28T03:21:17Z)
An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-09-18T22:57:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。