論文の概要: Palmira: A Deep Deformable Network for Instance Segmentation of Dense
and Uneven Layouts in Handwritten Manuscripts
- arxiv url: http://arxiv.org/abs/2108.09436v1
- Date: Sat, 21 Aug 2021 04:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 16:00:28.083355
- Title: Palmira: A Deep Deformable Network for Instance Segmentation of Dense
and Uneven Layouts in Handwritten Manuscripts
- Title(参考訳): Palmira: 手書き手書き文字のDenseとUneven LayoutのインスタンスセグメンテーションのためのDeep Deformable Network
- Authors: Prema Satish Sharan, Sowmya Aitha, Amandeep Kumar, Abhishek Trivedi,
Aaron Augustine, Ravi Kiran Sarvadevabhatla
- Abstract要約: そこで我々は,手書き原稿中の領域の頑健で変形を考慮したインスタンス分割のための新しいディープネットワークPalmiraを提案する。
実験によりPalmiraはロバストなレイアウトを提供し、強力なベースラインアプローチやアブレーティブなバリエーションよりも優れていることが示された。
我々はまた、パルミラの一般化能力を示すために、アラビア語、東南アジア、ヘブライの歴史写本の質的な結果も含んでいる。
- 参考スコア(独自算出の注目度): 8.106194483237907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten documents are often characterized by dense and uneven layout.
Despite advances, standard deep network based approaches for semantic layout
segmentation are not robust to complex deformations seen across semantic
regions. This phenomenon is especially pronounced for the low-resource Indic
palm-leaf manuscript domain. To address the issue, we first introduce
Indiscapes2, a new large-scale diverse dataset of Indic manuscripts with
semantic layout annotations. Indiscapes2 contains documents from four different
historical collections and is 150% larger than its predecessor, Indiscapes. We
also propose a novel deep network Palmira for robust, deformation-aware
instance segmentation of regions in handwritten manuscripts. We also report
Hausdorff distance and its variants as a boundary-aware performance measure.
Our experiments demonstrate that Palmira provides robust layouts, outperforms
strong baseline approaches and ablative variants. We also include qualitative
results on Arabic, South-East Asian and Hebrew historical manuscripts to
showcase the generalization capability of Palmira.
- Abstract(参考訳): 手書きの文書は、しばしば濃密で不均一なレイアウトで特徴づけられる。
進歩にもかかわらず、セマンティックレイアウトセグメンテーションのための標準的なディープネットワークベースのアプローチは、セマンティクス領域にまたがる複雑な変形に対して堅牢ではない。
この現象は、特に低リソースのインディアムリーフ原稿ドメインで顕著である。
この問題に対処するため、最初にindiscapes2を紹介します。indiscapes2は、セマンティックレイアウトアノテーションを備えた、インデックス原稿の新しい大規模多種多様なデータセットです。
Indiscapes2には4つの異なる歴史的コレクションの文書があり、前身であるIndiscapesよりも150%大きい。
また,手書き原稿中の領域の頑健な変形対応インスタンスセグメンテーションのための,新しい深層ネットワークpalmiraを提案する。
また、ハウスドルフ距離とその変種を境界対応性能尺度として報告する。
実験によりPalmiraはロバストなレイアウトを提供し、強力なベースラインアプローチやアブレーティブなバリエーションよりも優れていることが示された。
我々はまた、パルミラの一般化能力を示すために、アラビア語、東南アジア、ヘブライの歴史写本の質的な結果も含んでいる。
関連論文リスト
- PLATTER: A Page-Level Handwritten Text Recognition System for Indic Scripts [20.394597266150534]
我々はPage-Level hAndwriTTen TExt Recognition(PLATTER)のエンドツーエンドフレームワークを提案する。
第2に,言語に依存しないHTDモデルの性能測定にPLATTERを用いることを実証する。
最後に、厳密にキュレートされたページレベルのインデックス手書きOCRデータセットである、手書きのIndic Scripts (CHIPS) のコーパスをリリースする。
論文 参考訳(メタデータ) (2025-02-10T05:50:26Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing [82.33075210051129]
AceParseは構造化テキストのパースをサポートするために設計された最初の包括的なデータセットである。
AceParseに基づいて、さまざまな構造化テキストを正確に解析するマルチモーダルモデルAceを微調整した。
このモデルは、F1スコアで4.1%、ジャカルド類似度で5%、以前の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T06:06:34Z) - Muharaf: Manuscripts of Handwritten Arabic Dataset for Cursive Text Recognition [5.28595286827031]
Manuscripts of Hand written Arabic(Muharaf)データセットは、1,600以上の歴史的な手書きページイメージからなる機械学習データセットである。
このデータセットは、手書きのテキスト認識において、最先端の技術を前進させるためにコンパイルされた。
論文 参考訳(メタデータ) (2024-06-13T23:40:34Z) - WordScape: a Pipeline to extract multilingual, visually rich Documents
with Layout Annotations from Web Crawl Data [13.297444760076406]
本稿では,学際的,多言語的コーパス作成のための新しいパイプラインであるWordScapeを紹介する。
WordScapeはWebから取得したWordドキュメントのオープンXML構造を解析する。
文化的にも言語的にも多様なドキュメントページを提供し、自然な意味構造と高品質なテキストを提供する。
論文 参考訳(メタデータ) (2023-12-15T20:28:31Z) - Page Layout Analysis of Text-heavy Historical Documents: a Comparison of
Textual and Visual Approaches [0.0]
ページレイアウト分析は、ページを関心のある領域に分割できるドキュメント処理の基本的なステップである。
高度に複雑なレイアウトと混在したスクリプトにより、学術的に注釈付けされた文書は、最先端のモデルでは困難なままである。
論文 参考訳(メタデータ) (2022-12-12T10:10:29Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - CDistNet: Perceiving Multi-Domain Character Distance for Robust Text
Recognition [87.3894423816705]
本稿では,MDCDP (Multi-Domain Character Distance Perception) と呼ばれる新しいモジュールを提案する。
MDCDPは位置埋め込みを使用して、クロスアテンションメカニズムに従って視覚的特徴と意味的特徴の両方を問合せする。
我々は、複数のMDCDPを積み重ねたCDistNetを開発し、徐々に正確な距離モデリングをガイドする。
論文 参考訳(メタデータ) (2021-11-22T06:27:29Z) - Whole page recognition of historical handwriting [1.2183405753834562]
そこで本研究では,手書きページを受信し,その全文を転写するテキストローカライゼーションを伴わないエンドツーエンド推論手法について検討する。
明示的な文字や単語や行のセグメンテーションは推論にかかわらないため、我々はこのアプローチを「セグメンテーションフリー」と呼ぶ。
テキストのローカライゼーションやセグメンテーションを伴わないページ全体の推論手法が競合していると結論付けている。
論文 参考訳(メタデータ) (2020-09-22T15:46:33Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。