Fugu-MT 論文翻訳(概要): Page Layout Analysis System for Unconstrained Historic Documents

論文の概要: Page Layout Analysis System for Unconstrained Historic Documents

arxiv url: http://arxiv.org/abs/2102.11838v1
Date: Tue, 23 Feb 2021 18:13:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-24 13:58:07.452703
Title: Page Layout Analysis System for Unconstrained Historic Documents
Title（参考訳）: 非拘束歴史文書のページレイアウト解析システム
Authors: Old\v{r}ich Kodym, Michal Hradi\v{s}
Abstract要約: 我々は,線高とテキストブロック境界予測を追加することで,CNNベースのテキストベースライン検出システムの拡張を提案する。提案手法は, cBAD ベースライン検出データセット上で有効であることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Extraction of text regions and individual text lines from historic documents is necessary for automatic transcription. We propose extending a CNN-based text baseline detection system by adding line height and text block boundary predictions to the model output, allowing the system to extract more comprehensive layout information. We also show that pixel-wise text orientation prediction can be used for processing documents with multiple text orientations. We demonstrate that the proposed method performs well on the cBAD baseline detection dataset. Additionally, we benchmark the method on newly introduced PERO layout dataset which we also make public.
Abstract（参考訳）: 自動転写には歴史文書からテキスト領域と個々のテキスト行を抽出する必要がある。モデル出力に線高とテキストブロック境界予測を追加することで,CNNベースのテキストベースライン検出システムの拡張を提案し,より包括的なレイアウト情報を抽出する。また,複数のテキスト指向性を持つ文書の処理には,画素単位のテキスト指向予測が利用できることを示した。提案手法は, cBAD ベースライン検出データセット上で有効であることを示す。また、新たに導入したPEROレイアウトデータセットのベンチマークも公開しています。

関連論文リスト

FP-THD: Full page transcription of historical documents [0.0]
本研究は, 特色を保存した史料の書き起こしのためのパイプラインを提案する。我々は、レイアウト解析モデルを用いて過去のテキスト画像を分析し、テキスト行を抽出し、OCRモデルで処理し、完全にデジタル化されたページを生成する。
論文参考訳（メタデータ） (2026-01-20T07:13:38Z)
LIGHT: Multi-Modal Text Linking on Historical Maps [1.8399976559754367]
光は、歴史的地図上のテキストをリンクするための言語的、画像的、幾何学的特徴を統合する、新しいマルチモーダルアプローチである。 ICDAR 2024/2025 MapTextコンペティションのデータでは、既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-06-27T19:18:00Z)
Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。 DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-05-30T07:25:23Z)
Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文参考訳（メタデータ） (2024-05-13T05:48:35Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
The Learnable Typewriter: A Generative Approach to Text Analysis [17.355857281085164]
テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。同様のフォントや手書きのテキスト行を入力として、我々のアプローチは多数の異なる文字を学習することができる。
論文参考訳（メタデータ） (2023-02-03T11:17:59Z)
SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文参考訳（メタデータ） (2022-11-25T18:59:10Z)
Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文参考訳（メタデータ） (2022-03-28T23:35:45Z)
Unsupervised learning of text line segmentation by differentiating coarse patterns [0.0]
距離が粗いテキスト行パターンに類似するコンパクトユークリッド空間に文書イメージパッチを埋め込む教師なしのディープラーニング手法を提案する。テキスト行のセグメンテーションは、埋め込み特徴ベクトルを使って標準技術を使って容易に実装できる。本手法は,テキスト行分割データセットのいくつかの変種に対して定性的かつ定量的に評価し,その効果を実証する。
論文参考訳（メタデータ） (2021-05-19T21:21:30Z)
Unsupervised deep learning for text line segmentation [0.0]
一般的な方法は、テキスト行をトレースするブロブラインの画像に文書イメージを埋め込むためのディープラーニングネットワークを訓練することである。本稿では、アノテーションを必要とせずに、文書イメージパッチの教師なし埋め込みを提案する。本研究では,アウトレーヤが収束を損なわないことを示すとともに,テキスト行間の空間からテキスト行を識別するネットワークを学習する。
論文参考訳（メタデータ） (2020-03-19T08:57:53Z)
Learning to Select Bi-Aspect Information for Document-Scale Text Content Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文参考訳（メタデータ） (2020-02-24T12:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。