論文の概要: Recognizing Handwriting Styles in a Historical Scanned Document Using
Unsupervised Fuzzy Clustering
- arxiv url: http://arxiv.org/abs/2210.16780v2
- Date: Wed, 28 Jun 2023 21:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 16:52:18.312272
- Title: Recognizing Handwriting Styles in a Historical Scanned Document Using
Unsupervised Fuzzy Clustering
- Title(参考訳): 教師なしファジィクラスタリングを用いた歴史的文書の手書き認識
- Authors: Sriparna Majumdar and Aaron Brick
- Abstract要約: 特異な手書きスタイルは、文字サイズ、ストローク幅、ループ、ダクト、スラットアングル、カーシブリグチュアなど、いくつかの要素のブレンドで異なってくることがある。
隠れマルコフモデル、サポートベクターマシン、半教師付きリカレントニューラルネットワークによるラベル付きデータの研究は、中程度から高い成功を収めている。
本研究では, ファジィソフトクラスタリングと線形主成分分析を併用して, 歴史写本の手動変化を検知することに成功した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The forensic attribution of the handwriting in a digitized document to
multiple scribes is a challenging problem of high dimensionality. Unique
handwriting styles may be dissimilar in a blend of several factors including
character size, stroke width, loops, ductus, slant angles, and cursive
ligatures. Previous work on labeled data with Hidden Markov models, support
vector machines, and semi-supervised recurrent neural networks have provided
moderate to high success. In this study, we successfully detect hand shifts in
a historical manuscript through fuzzy soft clustering in combination with
linear principal component analysis. This advance demonstrates the successful
deployment of unsupervised methods for writer attribution of historical
documents and forensic document analysis.
- Abstract(参考訳): デジタル化された文書中の手書きの複数の筆跡への法医学的帰属は、高次元の難しい問題である。
ユニークな手書きスタイルは、文字サイズ、ストローク幅、ループ、ダクト、傾斜角、曲がりくねったリガチュアなど、いくつかの要素を混ぜ合わせて区別することができる。
隠れマルコフモデル、サポートベクターマシン、半教師付きリカレントニューラルネットワークによるラベル付きデータの研究は、中程度から高い成功を収めている。
本研究では, ファジィソフトクラスタリングと線形主成分分析を組み合わせることで, 古写本のハンドシフトの検出に成功している。
この進歩は、歴史文書の著者帰属と法医学的文書分析のための教師なし手法の展開を成功に導くものである。
関連論文リスト
- A Novel Dataset for Non-Destructive Inspection of Handwritten Documents [0.0]
法医学的手書き検査は、原稿の著者を適切に定義または仮説化するために手書きの文書を調べることを目的としている。
2つのサブセットからなる新しい挑戦的データセットを提案する。第1は古典的なペンと紙で書かれた21の文書で、後者は後にデジタル化され、タブレットなどの一般的なデバイスで直接取得される。
提案したデータセットの予備的な結果は、第1サブセットで90%の分類精度が得られることを示している。
論文 参考訳(メタデータ) (2024-01-09T09:25:58Z) - How to Choose Pretrained Handwriting Recognition Models for Single
Writer Fine-Tuning [23.274139396706264]
近年のDeep Learning-based Handwriting Text Recognition (HTR) の進歩は、現代の写本や歴史文書に顕著な性能を持つモデルを生み出している。
これらのモデルは、言語、紙の支持、インク、著者の筆跡など、独特の特徴を持つ写本に適用した場合、同じパフォーマンスを得るのに苦労している。
本稿では,手書きテキスト生成モデルを用いて得られた,大規模で実際のベンチマークデータセットと合成データセットについて考察する。
我々は,5行の実際の微調整行数で,原稿を効果的に書き起こし可能なHTRモデルを得るための,そのようなデータの最も関連性の高い特徴を定量的に示す。
論文 参考訳(メタデータ) (2023-05-04T07:00:28Z) - A Few Shot Multi-Representation Approach for N-gram Spotting in
Historical Manuscripts [1.2930503923129213]
少数の文字列(N-gram)のスポッティングのための数ショット学習パラダイムを提案する。
我々は,重要なn-gramの認識が語彙依存の軽減につながることを示した。
論文 参考訳(メタデータ) (2022-09-21T15:35:02Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - Handwriting Classification for the Analysis of Art-Historical Documents [6.918282834668529]
We focus on the analysis of handwriting in scanned document from the art-historic Archive of the WPI。
視覚構造に基づいて抽出されたテキストの断片をラベル付けする手書き分類モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T13:06:46Z) - Neural Language Modeling for Contextualized Temporal Graph Generation [49.21890450444187]
本稿では,大規模事前学習言語モデルを用いた文書のイベントレベル時間グラフの自動生成に関する最初の研究について述べる。
論文 参考訳(メタデータ) (2020-10-20T07:08:00Z) - Self-supervised Deep Reconstruction of Mixed Strip-shredded Text
Documents [63.41717168981103]
本研究は,従来の1ページ再構成の深層学習手法を,より現実的で複雑なシナリオに拡張する。
本手法では, 整合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。
提案手法は複雑なシナリオにおいて競合する手法よりも優れ、90%以上の精度で精度が向上する。
論文 参考訳(メタデータ) (2020-07-01T21:48:05Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。