論文の概要: SegHist: A General Segmentation-based Framework for Chinese Historical Document Text Line Detection
- arxiv url: http://arxiv.org/abs/2406.15485v3
- Date: Mon, 8 Jul 2024 07:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 01:00:13.594881
- Title: SegHist: A General Segmentation-based Framework for Chinese Historical Document Text Line Detection
- Title(参考訳): SegHist: 中国の歴史文書テキスト行検出のための汎用セグメンテーションベースのフレームワーク
- Authors: Xingjian Hu, Baole Wei, Liangcai Gao, Jun Wang,
- Abstract要約: テキスト行検出は、歴史的文書分析において重要な課題である。
歴史的文書テキスト検出のための一般的な枠組み(セグヒスト)を提案する。
一般的に使われているDB++とSegHistフレームワークを統合することで、DB-SegHistを開発する。
- 参考スコア(独自算出の注目度): 10.08588082910962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text line detection is a key task in historical document analysis facing many challenges of arbitrary-shaped text lines, dense texts, and text lines with high aspect ratios, etc. In this paper, we propose a general framework for historical document text detection (SegHist), enabling existing segmentation-based text detection methods to effectively address the challenges, especially text lines with high aspect ratios. Integrating the SegHist framework with the commonly used method DB++, we develop DB-SegHist. This approach achieves SOTA on the CHDAC, MTHv2, and competitive results on HDRC datasets, with a significant improvement of 1.19% on the most challenging CHDAC dataset which features more text lines with high aspect ratios. Moreover, our method attains SOTA on rotated MTHv2 and rotated HDRC, demonstrating its rotational robustness. The code is available at https://github.com/LumionHXJ/SegHist.
- Abstract(参考訳): テキスト線検出は、任意の形のテキスト線、高アスペクト比のテキスト線、その他多くの課題に直面した、歴史的文書解析における重要なタスクである。
本稿では,従来のセグメンテーションに基づくテキスト検出手法を用いて,特にアスペクト比の高いテキストラインの課題を効果的に解決することのできる,歴史文書テキスト検出のための一般的なフレームワークを提案する。
一般的に使われているDB++とSegHistフレームワークを統合することで、DB-SegHistを開発する。
このアプローチは、CHDAC、MTHv2、HDRCデータセット上での競合結果のSOTAを実現し、高アスペクト比のテキスト行を特徴とする最も困難なCHDACデータセットにおいて、1.19%の大幅な改善を実現している。
さらに, 回転MTHv2および回転HDRC上でSOTAを達成し, その回転ロバスト性を示した。
コードはhttps://github.com/LumionHXJ/SegHist.comで公開されている。
関連論文リスト
- Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis [52.01356859448068]
HTSは画像中のテキストを認識し、文字、単語、行、段落の4段階の階層構造を識別することができる。
HTSは、複数の単語レベルのテキストスポッティングベンチマークデータセットと幾何学的レイアウト解析タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-10-25T22:23:54Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - Line Segmentation from Unconstrained Handwritten Text Images using
Adaptive Approach [10.436029791699777]
手書きテキスト画像からの行分割は、多様性と未知のバリエーションのために難しい課題である。
接続されたコンポーネント座標とテキスト高さのアライメントを結合した手書きテキスト画像からのラインセグメンテーションに適応的アプローチを用いる。
提案手法は,ベースラインを持つ文書ページとプレーンページの2種類のデータセットで検証される。
論文 参考訳(メタデータ) (2021-04-18T08:52:52Z) - Combining Morphological and Histogram based Text Line Segmentation in
the OCR Context [0.0]
本論文で提案するアルゴリズム的アプローチはこの目的のために設計されている。
本手法は, 品質問題に特有な歴史的データ収集に適用するために開発された。
計算コストの低さが組み合わさった有望なセグメンテーション結果のため、このアルゴリズムはルクセンブルク国立図書館のocrパイプラインに組み込まれた。
論文 参考訳(メタデータ) (2021-03-16T09:06:25Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - DGST : Discriminator Guided Scene Text detector [11.817428636084305]
本稿では,シーンテキスト検出のセグメンテーション効果を改善するために,条件付き生成逆数ネットワークに基づく検出フレームワークを提案する。
標準データセットの実験では、提案されたDGSTが顕著なゲインをもたらし、最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-02-28T01:47:36Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。