論文の概要: Combining Morphological and Histogram based Text Line Segmentation in
the OCR Context
- arxiv url: http://arxiv.org/abs/2103.08922v1
- Date: Tue, 16 Mar 2021 09:06:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 19:18:19.134461
- Title: Combining Morphological and Histogram based Text Line Segmentation in
the OCR Context
- Title(参考訳): OCR文脈における形態とヒストグラムに基づくテキスト行分割の組合せ
- Authors: Pit Schneider
- Abstract要約: 本論文で提案するアルゴリズム的アプローチはこの目的のために設計されている。
本手法は, 品質問題に特有な歴史的データ収集に適用するために開発された。
計算コストの低さが組み合わさった有望なセグメンテーション結果のため、このアルゴリズムはルクセンブルク国立図書館のocrパイプラインに組み込まれた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text line segmentation is one of the pre-stages of modern optical character
recognition systems. The algorithmic approach proposed by this paper has been
designed for this exact purpose. Its main characteristic is the combination of
two different techniques, morphological image operations and horizontal
histogram projections. The method was developed to be applied on a historic
data collection that commonly features quality issues, such as degraded paper,
blurred text, or curved text lines. For that reason, the segmenter in question
could be of particular interest for cultural institutions, such as libraries,
archives, museums, ..., that want access to robust line bounding boxes for a
given historic document. Because of the promising segmentation results that are
joined by low computational cost, the algorithm was incorporated into the OCR
pipeline of the National Library of Luxembourg, in the context of the
initiative of reprocessing their historic newspaper collection. The general
contribution of this paper is to outline the approach and to evaluate the gains
in terms of accuracy and speed, comparing it to the segmentation algorithm
bundled with the used open source OCR software.
- Abstract(参考訳): テキストラインセグメンテーションは、現代の光学的文字認識システムの初期段階の1つである。
本論文で提案するアルゴリズムアプローチは,この目的のために設計されている。
主な特徴は2つの異なる技法、形態的画像操作と水平ヒストグラム投影の組み合わせである。
本手法は, 劣化紙, ぼやけたテキスト, 湾曲したテキストラインなどの品質問題を特徴とする歴史的データ収集に適用するために開発された。
そのため、問題のセグメンテーターは、ある歴史文書の堅牢な行境界ボックスへのアクセスを望む図書館、アーカイブ、博物館、...のような文化機関にとって特に関心があるかもしれない。
計算コストの低い結果と結びつく有望なセグメンテーションの結果から、このアルゴリズムは歴史的新聞コレクションの再処理の取り組みにおいて、ルクセンブルク国立図書館のOCRパイプラインに組み込まれた。
本論文の一般的な貢献は, 提案手法の概要と, 使用済みオープンソースOCRソフトウェアにバンドルしたセグメンテーションアルゴリズムと比較して, 精度と速度の面での利得を評価することである。
関連論文リスト
- SegHist: A General Segmentation-based Framework for Chinese Historical Document Text Line Detection [10.08588082910962]
テキスト行検出は、歴史的文書分析において重要な課題である。
歴史的文書テキスト検出のための一般的な枠組み(セグヒスト)を提案する。
一般的に使われているDB++とSegHistフレームワークを統合することで、DB-SegHistを開発する。
論文 参考訳(メタデータ) (2024-06-17T11:00:04Z) - The CLRS-Text Algorithmic Reasoning Language Benchmark [48.45201665463275]
CLRS-TextはCLRSベンチマークのテキストバージョンである。
CLRS-Textは、30の多様な、挑戦的なアルゴリズムタスクのためのトレースデータを手続き的に生成することができる。
このベンチマークでは、様々なLMをジェネラリストエグゼクタとして微調整し評価する。
論文 参考訳(メタデータ) (2024-06-06T16:29:25Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Segmenting Messy Text: Detecting Boundaries in Text Derived from
Historical Newspaper Images [0.0]
新聞の結婚発表リストを1つの発表単位に分けるという,困難なテキストセグメンテーションの課題について考察する。
多くの場合、情報は文に構造化されず、隣接するセグメントは互いに位相的に区別されない。
本稿では,このようなテキストをセグメント化するための新しいディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2023-12-20T05:17:06Z) - Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T11:44:46Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。
エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - One-shot Compositional Data Generation for Low Resource Handwritten Text
Recognition [10.473427493876422]
低リソース手書きテキスト認識は、わずかな注釈付きデータと非常に限られた言語情報のために難しい問題です。
本稿では,ベイズプログラム学習に基づくデータ生成手法を用いてこの問題に対処する。
大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。
論文 参考訳(メタデータ) (2021-05-11T18:53:01Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。