論文の概要: HRCenterNet: An Anchorless Approach to Chinese Character Segmentation in
Historical Documents
- arxiv url: http://arxiv.org/abs/2012.05739v1
- Date: Thu, 10 Dec 2020 15:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 14:39:38.967145
- Title: HRCenterNet: An Anchorless Approach to Chinese Character Segmentation in
Historical Documents
- Title(参考訳): hrcenternet:歴史文書における漢字セグメンテーションへのアンカーレスアプローチ
- Authors: Chia-Wei Tang, Chao-Lin Liu and Po-Sen Chiu
- Abstract要約: 本稿では,アンカーレス物体検出法と並列化アーキテクチャを組み合わせたHRCenterNetというモデルを提案する。
データセットは、3000以上の中国史料と100万以上の漢字で構成されている。
本モデルでは,IoU 0.81を平均で達成し,他のモデルと比較して最高速度精度のトレードオフを実現している。
- 参考スコア(独自算出の注目度): 0.7734726150561089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The information provided by historical documents has always been
indispensable in the transmission of human civilization, but it has also made
these books susceptible to damage due to various factors. Thanks to recent
technology, the automatic digitization of these documents are one of the
quickest and most effective means of preservation. The main steps of automatic
text digitization can be divided into two stages, mainly: character
segmentation and character recognition, where the recognition results depend
largely on the accuracy of segmentation. Therefore, in this study, we will only
focus on the character segmentation of historical Chinese documents. In this
research, we propose a model named HRCenterNet, which is combined with an
anchorless object detection method and parallelized architecture. The MTHv2
dataset consists of over 3000 Chinese historical document images and over 1
million individual Chinese characters; with these enormous data, the
segmentation capability of our model achieves IoU 0.81 on average with the best
speed-accuracy trade-off compared to the others. Our source code is available
at https://github.com/Tverous/HRCenterNet.
- Abstract(参考訳): 史料から得られる情報は常に人類文明の伝達に欠かせないものであるが、これらの書物は様々な要因により損害を受けやすいものでもある。
最近の技術により、これらの文書の自動デジタル化は、最も迅速かつ効果的な保存方法の1つである。
自動テキストデジタル化の主なステップは、主に文字分割と文字認識の2段階に分けられる。
そこで本研究では,中国古文書の文字分割にのみ注目する。
本研究では,HRCenterNetというモデルと,アンカーレスオブジェクト検出手法と並列化アーキテクチャを組み合わせたモデルを提案する。
MTHv2データセットは、3000以上の中国古文書画像と100万以上の漢字で構成されており、これらの膨大なデータにより、我々のモデルのセグメンテーション能力は平均でIoU 0.81を達成する。
ソースコードはhttps://github.com/tverous/hrcenternetで入手できます。
関連論文リスト
- Contrastive Entity Coreference and Disambiguation for Historical Texts [2.446672595462589]
既存のエンティティの曖昧さの方法はしばしば、現代の知識ベースに記憶されていない個人を悩ませる歴史文書の正確さに欠ける。
本研究は,文献の文書間照合の解決と曖昧さの解消に3つの重要な貢献をしている。
論文 参考訳(メタデータ) (2024-06-21T18:22:14Z) - A Novel Dataset for Non-Destructive Inspection of Handwritten Documents [0.0]
法医学的手書き検査は、原稿の著者を適切に定義または仮説化するために手書きの文書を調べることを目的としている。
2つのサブセットからなる新しい挑戦的データセットを提案する。第1は古典的なペンと紙で書かれた21の文書で、後者は後にデジタル化され、タブレットなどの一般的なデバイスで直接取得される。
提案したデータセットの予備的な結果は、第1サブセットで90%の分類精度が得られることを示している。
論文 参考訳(メタデータ) (2024-01-09T09:25:58Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Instance Segmentation for Chinese Character Stroke Extraction, Datasets
and Benchmarks [19.176839237739085]
ストロークは漢字の基本要素であり、ストローク抽出は重要かつ長年の努力である。
異なるストローク抽出法を公平に比較するための標準ベンチマークは存在しない。
我々は,2つの新しい大規模データセットを用いた中国語文字ストローク抽出ベンチマークを公開している。
論文 参考訳(メタデータ) (2022-10-25T08:09:14Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - The LAM Dataset: A Novel Benchmark for Line-Level Handwritten Text
Recognition [40.20527158935902]
手書き文字認識(HTR)は、コンピュータビジョンと自然言語処理の交差点におけるオープンな問題である。
イタリア古写本のラインレベルの大規模なHTRデータセットであるLudocio Antonio Muratoriデータセットを60年以上にわたって1人の著者が編集した。
論文 参考訳(メタデータ) (2022-08-16T11:44:16Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework [99.38817546900405]
本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。
Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
論文 参考訳(メタデータ) (2022-02-14T14:37:15Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。