論文の概要: Palmira: A Deep Deformable Network for Instance Segmentation of Dense
and Uneven Layouts in Handwritten Manuscripts
- arxiv url: http://arxiv.org/abs/2108.09436v1
- Date: Sat, 21 Aug 2021 04:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 16:00:28.083355
- Title: Palmira: A Deep Deformable Network for Instance Segmentation of Dense
and Uneven Layouts in Handwritten Manuscripts
- Title(参考訳): Palmira: 手書き手書き文字のDenseとUneven LayoutのインスタンスセグメンテーションのためのDeep Deformable Network
- Authors: Prema Satish Sharan, Sowmya Aitha, Amandeep Kumar, Abhishek Trivedi,
Aaron Augustine, Ravi Kiran Sarvadevabhatla
- Abstract要約: そこで我々は,手書き原稿中の領域の頑健で変形を考慮したインスタンス分割のための新しいディープネットワークPalmiraを提案する。
実験によりPalmiraはロバストなレイアウトを提供し、強力なベースラインアプローチやアブレーティブなバリエーションよりも優れていることが示された。
我々はまた、パルミラの一般化能力を示すために、アラビア語、東南アジア、ヘブライの歴史写本の質的な結果も含んでいる。
- 参考スコア(独自算出の注目度): 8.106194483237907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten documents are often characterized by dense and uneven layout.
Despite advances, standard deep network based approaches for semantic layout
segmentation are not robust to complex deformations seen across semantic
regions. This phenomenon is especially pronounced for the low-resource Indic
palm-leaf manuscript domain. To address the issue, we first introduce
Indiscapes2, a new large-scale diverse dataset of Indic manuscripts with
semantic layout annotations. Indiscapes2 contains documents from four different
historical collections and is 150% larger than its predecessor, Indiscapes. We
also propose a novel deep network Palmira for robust, deformation-aware
instance segmentation of regions in handwritten manuscripts. We also report
Hausdorff distance and its variants as a boundary-aware performance measure.
Our experiments demonstrate that Palmira provides robust layouts, outperforms
strong baseline approaches and ablative variants. We also include qualitative
results on Arabic, South-East Asian and Hebrew historical manuscripts to
showcase the generalization capability of Palmira.
- Abstract(参考訳): 手書きの文書は、しばしば濃密で不均一なレイアウトで特徴づけられる。
進歩にもかかわらず、セマンティックレイアウトセグメンテーションのための標準的なディープネットワークベースのアプローチは、セマンティクス領域にまたがる複雑な変形に対して堅牢ではない。
この現象は、特に低リソースのインディアムリーフ原稿ドメインで顕著である。
この問題に対処するため、最初にindiscapes2を紹介します。indiscapes2は、セマンティックレイアウトアノテーションを備えた、インデックス原稿の新しい大規模多種多様なデータセットです。
Indiscapes2には4つの異なる歴史的コレクションの文書があり、前身であるIndiscapesよりも150%大きい。
また,手書き原稿中の領域の頑健な変形対応インスタンスセグメンテーションのための,新しい深層ネットワークpalmiraを提案する。
また、ハウスドルフ距離とその変種を境界対応性能尺度として報告する。
実験によりPalmiraはロバストなレイアウトを提供し、強力なベースラインアプローチやアブレーティブなバリエーションよりも優れていることが示された。
我々はまた、パルミラの一般化能力を示すために、アラビア語、東南アジア、ヘブライの歴史写本の質的な結果も含んでいる。
関連論文リスト
- WordScape: a Pipeline to extract multilingual, visually rich Documents
with Layout Annotations from Web Crawl Data [13.297444760076406]
本稿では,学際的,多言語的コーパス作成のための新しいパイプラインであるWordScapeを紹介する。
WordScapeはWebから取得したWordドキュメントのオープンXML構造を解析する。
文化的にも言語的にも多様なドキュメントページを提供し、自然な意味構造と高品質なテキストを提供する。
論文 参考訳(メタデータ) (2023-12-15T20:28:31Z) - BN-DRISHTI: Bangla Document Recognition through Instance-level
Segmentation of Handwritten Text Images [0.0]
本稿では,ハフ変換とアフィン変換を併用した深層学習に基づくオブジェクト検出フレームワーク(YOLO)を提案する。
BN-HTRdデータセットの拡張版として、786個の全ページ手書きBangla文書画像を示す。
Fスコアは行数99.97%,単語セグメンテーション98%であった。
論文 参考訳(メタデータ) (2023-05-31T04:08:57Z) - Page Layout Analysis of Text-heavy Historical Documents: a Comparison of
Textual and Visual Approaches [0.0]
ページレイアウト分析は、ページを関心のある領域に分割できるドキュメント処理の基本的なステップである。
高度に複雑なレイアウトと混在したスクリプトにより、学術的に注釈付けされた文書は、最先端のモデルでは困難なままである。
論文 参考訳(メタデータ) (2022-12-12T10:10:29Z) - MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文 参考訳(メタデータ) (2022-11-27T22:47:37Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Robust Text Line Detection in Historical Documents: Learning and
Evaluation Methods [1.9938405188113029]
本稿では,3つの最先端システムDoc-UFCN,dhSegment,ARU-Netを用いて実験を行った。
多様な未確認ページを正確にセグメント化できる,さまざまな履歴文書データセットに基づいてトレーニングされた汎用モデルを構築することが可能であることを示す。
論文 参考訳(メタデータ) (2022-03-23T11:56:25Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - CDistNet: Perceiving Multi-Domain Character Distance for Robust Text
Recognition [87.3894423816705]
本稿では,MDCDP (Multi-Domain Character Distance Perception) と呼ばれる新しいモジュールを提案する。
MDCDPは位置埋め込みを使用して、クロスアテンションメカニズムに従って視覚的特徴と意味的特徴の両方を問合せする。
我々は、複数のMDCDPを積み重ねたCDistNetを開発し、徐々に正確な距離モデリングをガイドする。
論文 参考訳(メタデータ) (2021-11-22T06:27:29Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - Whole page recognition of historical handwriting [1.2183405753834562]
そこで本研究では,手書きページを受信し,その全文を転写するテキストローカライゼーションを伴わないエンドツーエンド推論手法について検討する。
明示的な文字や単語や行のセグメンテーションは推論にかかわらないため、我々はこのアプローチを「セグメンテーションフリー」と呼ぶ。
テキストのローカライゼーションやセグメンテーションを伴わないページ全体の推論手法が競合していると結論付けている。
論文 参考訳(メタデータ) (2020-09-22T15:46:33Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。