Fugu-MT 論文翻訳(概要): Palmira: A Deep Deformable Network for Instance Segmentation of Dense and Uneven Layouts in Handwritten Manuscripts

論文の概要: Palmira: A Deep Deformable Network for Instance Segmentation of Dense and Uneven Layouts in Handwritten Manuscripts

arxiv url: http://arxiv.org/abs/2108.09436v1
Date: Sat, 21 Aug 2021 04:41:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-24 16:00:28.083355
Title: Palmira: A Deep Deformable Network for Instance Segmentation of Dense and Uneven Layouts in Handwritten Manuscripts
Title（参考訳）: Palmira: 手書き手書き文字のDenseとUneven LayoutのインスタンスセグメンテーションのためのDeep Deformable Network
Authors: Prema Satish Sharan, Sowmya Aitha, Amandeep Kumar, Abhishek Trivedi, Aaron Augustine, Ravi Kiran Sarvadevabhatla
Abstract要約: そこで我々は,手書き原稿中の領域の頑健で変形を考慮したインスタンス分割のための新しいディープネットワークPalmiraを提案する。実験によりPalmiraはロバストなレイアウトを提供し、強力なベースラインアプローチやアブレーティブなバリエーションよりも優れていることが示された。我々はまた、パルミラの一般化能力を示すために、アラビア語、東南アジア、ヘブライの歴史写本の質的な結果も含んでいる。
参考スコア（独自算出の注目度）: 8.106194483237907
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Handwritten documents are often characterized by dense and uneven layout. Despite advances, standard deep network based approaches for semantic layout segmentation are not robust to complex deformations seen across semantic regions. This phenomenon is especially pronounced for the low-resource Indic palm-leaf manuscript domain. To address the issue, we first introduce Indiscapes2, a new large-scale diverse dataset of Indic manuscripts with semantic layout annotations. Indiscapes2 contains documents from four different historical collections and is 150% larger than its predecessor, Indiscapes. We also propose a novel deep network Palmira for robust, deformation-aware instance segmentation of regions in handwritten manuscripts. We also report Hausdorff distance and its variants as a boundary-aware performance measure. Our experiments demonstrate that Palmira provides robust layouts, outperforms strong baseline approaches and ablative variants. We also include qualitative results on Arabic, South-East Asian and Hebrew historical manuscripts to showcase the generalization capability of Palmira.
Abstract（参考訳）: 手書きの文書は、しばしば濃密で不均一なレイアウトで特徴づけられる。進歩にもかかわらず、セマンティックレイアウトセグメンテーションのための標準的なディープネットワークベースのアプローチは、セマンティクス領域にまたがる複雑な変形に対して堅牢ではない。この現象は、特に低リソースのインディアムリーフ原稿ドメインで顕著である。この問題に対処するため、最初にindiscapes2を紹介します。indiscapes2は、セマンティックレイアウトアノテーションを備えた、インデックス原稿の新しい大規模多種多様なデータセットです。 Indiscapes2には4つの異なる歴史的コレクションの文書があり、前身であるIndiscapesよりも150%大きい。また,手書き原稿中の領域の頑健な変形対応インスタンスセグメンテーションのための,新しい深層ネットワークpalmiraを提案する。また、ハウスドルフ距離とその変種を境界対応性能尺度として報告する。実験によりPalmiraはロバストなレイアウトを提供し、強力なベースラインアプローチやアブレーティブなバリエーションよりも優れていることが示された。我々はまた、パルミラの一般化能力を示すために、アラビア語、東南アジア、ヘブライの歴史写本の質的な結果も含んでいる。

関連論文リスト

DohaScript: A Large-Scale Multi-Writer Dataset for Continuous Handwritten Hindi Text [1.299941371793082]
531名のコントリビュータから収集した手書きHindiテキストの大規模マルチライターデータセットであるDohaScriptを紹介した。このデータセットは平行なスタイリスティックなコーパスとして設計されており、すべてのライターが6つの伝統的なヒンディー教のドーハ(カップレット)の同じ固定セットを転写する。 DohaScriptは、低リソースのスクリプト設定で連続手書きDevanagariテキストの研究を進めるための標準化され再現可能なベンチマークとして機能することを意図している。
論文参考訳（メタデータ） (2026-02-20T09:25:14Z)
PLATTER: A Page-Level Handwritten Text Recognition System for Indic Scripts [20.394597266150534]
我々はPage-Level hAndwriTTen TExt Recognition(PLATTER)のエンドツーエンドフレームワークを提案する。第2に,言語に依存しないHTDモデルの性能測定にPLATTERを用いることを実証する。最後に、厳密にキュレートされたページレベルのインデックス手書きOCRデータセットである、手書きのIndic Scripts (CHIPS) のコーパスをリリースする。
論文参考訳（メタデータ） (2025-02-10T05:50:26Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing [82.33075210051129]
AceParseは構造化テキストのパースをサポートするために設計された最初の包括的なデータセットである。 AceParseに基づいて、さまざまな構造化テキストを正確に解析するマルチモーダルモデルAceを微調整した。このモデルは、F1スコアで4.1%、ジャカルド類似度で5%、以前の最先端技術よりも優れていた。
論文参考訳（メタデータ） (2024-09-16T06:06:34Z)
Muharaf: Manuscripts of Handwritten Arabic Dataset for Cursive Text Recognition [5.28595286827031]
Manuscripts of Hand written Arabic(Muharaf)データセットは、1,600以上の歴史的な手書きページイメージからなる機械学習データセットである。このデータセットは、手書きのテキスト認識において、最先端の技術を前進させるためにコンパイルされた。
論文参考訳（メタデータ） (2024-06-13T23:40:34Z)
WordScape: a Pipeline to extract multilingual, visually rich Documents with Layout Annotations from Web Crawl Data [13.297444760076406]
本稿では,学際的,多言語的コーパス作成のための新しいパイプラインであるWordScapeを紹介する。 WordScapeはWebから取得したWordドキュメントのオープンXML構造を解析する。文化的にも言語的にも多様なドキュメントページを提供し、自然な意味構造と高品質なテキストを提供する。
論文参考訳（メタデータ） (2023-12-15T20:28:31Z)
BN-DRISHTI: Bangla Document Recognition through Instance-level Segmentation of Handwritten Text Images [0.0]
本稿では,ハフ変換とアフィン変換を併用した深層学習に基づくオブジェクト検出フレームワーク(YOLO)を提案する。 BN-HTRdデータセットの拡張版として、786個の全ページ手書きBangla文書画像を示す。 Fスコアは行数99.97%,単語セグメンテーション98%であった。
論文参考訳（メタデータ） (2023-05-31T04:08:57Z)
Page Layout Analysis of Text-heavy Historical Documents: a Comparison of Textual and Visual Approaches [0.0]
ページレイアウト分析は、ページを関心のある領域に分割できるドキュメント処理の基本的なステップである。高度に複雑なレイアウトと混在したスクリプトにより、学術的に注釈付けされた文書は、最先端のモデルでは困難なままである。
論文参考訳（メタデータ） (2022-12-12T10:10:29Z)
MGDoc: Pre-training with Multi-granular Hierarchy for Document Image Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。 MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文参考訳（メタデータ） (2022-11-27T22:47:37Z)
Boosting Modern and Historical Handwritten Text Recognition with Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文参考訳（メタデータ） (2022-08-17T06:55:54Z)
Digital Editions as Distant Supervision for Layout Analysis of Printed Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。 DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文参考訳（メタデータ） (2021-12-23T16:51:53Z)
CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition [87.3894423816705]
本稿では,MDCDP (Multi-Domain Character Distance Perception) と呼ばれる新しいモジュールを提案する。 MDCDPは位置埋め込みを使用して、クロスアテンションメカニズムに従って視覚的特徴と意味的特徴の両方を問合せする。我々は、複数のMDCDPを積み重ねたCDistNetを開発し、徐々に正確な距離モデリングをガイドする。
論文参考訳（メタデータ） (2021-11-22T06:27:29Z)
Whole page recognition of historical handwriting [1.2183405753834562]
そこで本研究では,手書きページを受信し,その全文を転写するテキストローカライゼーションを伴わないエンドツーエンド推論手法について検討する。明示的な文字や単語や行のセグメンテーションは推論にかかわらないため、我々はこのアプローチを「セグメンテーションフリー」と呼ぶ。テキストのローカライゼーションやセグメンテーションを伴わないページ全体の推論手法が競合していると結論付けている。
論文参考訳（メタデータ） (2020-09-22T15:46:33Z)
Learning to Select Bi-Aspect Information for Document-Scale Text Content Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文参考訳（メタデータ） (2020-02-24T12:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。