論文の概要: Accurate Fine-grained Layout Analysis for the Historical Tibetan
Document Based on the Instance Segmentation
- arxiv url: http://arxiv.org/abs/2110.08164v1
- Date: Fri, 15 Oct 2021 15:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 16:43:05.094982
- Title: Accurate Fine-grained Layout Analysis for the Historical Tibetan
Document Based on the Instance Segmentation
- Title(参考訳): 事例セグメンテーションに基づくチベット史文書の高精度細粒度配置解析
- Authors: Penghai Zhao, Weilan Wang, Xiaojuan Wang, Zhengqi Cai, Guowei Zhang,
and Yuqi Lu
- Abstract要約: そこで本稿では, チベット古文書のレイアウト解析を行うために, 細粒なサブラインレベルのレイアウト解析手法を提案する。
動的で信頼性の高いデータセットを構築するための高速化手法を提案する。
ネットワークがトレーニングされると、テキスト行、文、タイトルのインスタンスがセグメント化され、識別される。
実験の結果,提案手法はデータセットに十分な72.7%のAPを提供することがわかった。
- 参考スコア(独自算出の注目度): 0.9420795715422711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate layout analysis without subsequent text-line segmentation remains an
ongoing challenge, especially when facing the Kangyur, a kind of historical
Tibetan document featuring considerable touching components and mottled
background. Aiming at identifying different regions in document images, layout
analysis is indispensable for subsequent procedures such as character
recognition. However, there was only a little research being carried out to
perform line-level layout analysis which failed to deal with the Kangyur. To
obtain the optimal results, a fine-grained sub-line level layout analysis
approach is presented. Firstly, we introduced an accelerated method to build
the dataset which is dynamic and reliable. Secondly, enhancement had been made
to the SOLOv2 according to the characteristics of the Kangyur. Then, we fed the
enhanced SOLOv2 with the prepared annotation file during the training phase.
Once the network is trained, instances of the text line, sentence, and titles
can be segmented and identified during the inference stage. The experimental
results show that the proposed method delivers a decent 72.7% AP on our
dataset. In general, this preliminary research provides insights into the
fine-grained sub-line level layout analysis and testifies the SOLOv2-based
approaches. We also believe that the proposed methods can be adopted on other
language documents with various layouts.
- Abstract(参考訳): テキスト行のセグメンテーションを伴わない正確なレイアウト分析は現在も進行中の課題であり、特にチベットの歴史文書であるカンギュル(kangyur)に面する場合には、かなりの触感と背景が生えている。
文書画像の異なる領域を特定することを目的としたレイアウト解析は,文字認識などの後続処理には不可欠である。
しかし、ラインレベルのレイアウト解析を行うための研究はごくわずかしか行われなかったため、カンギュールの対応には至らなかった。
最適な結果を得るために,細かなサブラインレベルのレイアウト解析手法を提案する。
まず,動的かつ信頼性の高いデータセットを構築する高速化手法を提案する。
第二に、カンギュールの特性に応じてSOLOv2に改良が加えられた。
そして、トレーニング期間中に、拡張SOLOv2を準備されたアノテーションファイルに入力した。
ネットワークがトレーニングされると、テキスト行、文、タイトルのインスタンスが推論段階でセグメント化され、識別される。
実験の結果,提案手法はデータ集合に72.7%のapを提供することがわかった。
概して、この予備研究は、細粒度のサブラインレベルのレイアウト解析に関する洞察を与え、SOLOv2ベースのアプローチを実証する。
また,提案手法は様々なレイアウトを持つ他の言語文書にも適用できると考えている。
関連論文リスト
- Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - The Learnable Typewriter: A Generative Approach to Text Analysis [17.355857281085164]
テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。
同様のフォントや手書きのテキスト行を入力として、我々のアプローチは多数の異なる文字を学習することができる。
論文 参考訳(メタデータ) (2023-02-03T11:17:59Z) - Page Layout Analysis of Text-heavy Historical Documents: a Comparison of
Textual and Visual Approaches [0.0]
ページレイアウト分析は、ページを関心のある領域に分割できるドキュメント処理の基本的なステップである。
高度に複雑なレイアウトと混在したスクリプトにより、学術的に注釈付けされた文書は、最先端のモデルでは困難なままである。
論文 参考訳(メタデータ) (2022-12-12T10:10:29Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Robust Text Line Detection in Historical Documents: Learning and
Evaluation Methods [1.9938405188113029]
本稿では,3つの最先端システムDoc-UFCN,dhSegment,ARU-Netを用いて実験を行った。
多様な未確認ページを正確にセグメント化できる,さまざまな履歴文書データセットに基づいてトレーニングされた汎用モデルを構築することが可能であることを示す。
論文 参考訳(メタデータ) (2022-03-23T11:56:25Z) - Comprehensive Studies for Arbitrary-shape Scene Text Detection [78.50639779134944]
ボトムアップに基づくシーンテキスト検出のための統合フレームワークを提案する。
統一されたフレームワークの下では、非コアモジュールの一貫性のある設定が保証されます。
包括的調査と精巧な分析により、以前のモデルの利点と欠点を明らかにしている。
論文 参考訳(メタデータ) (2021-07-25T13:18:55Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Learning to Summarize Passages: Mining Passage-Summary Pairs from
Wikipedia Revision Histories [110.54963847339775]
ウィキペディアページのリビジョン履歴をマイニングすることで,パス・トゥ・サマリーデータセットを自動構築する手法を提案する。
特に、本手法では、ページに追加される本体の通路と導入文を同時にマイニングする。
構築されたデータセットは、100万以上のパス・サマー・ペアを含む。
論文 参考訳(メタデータ) (2020-04-06T12:11:50Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。