論文の概要: Text-independent writer identification using convolutional neural
network
- arxiv url: http://arxiv.org/abs/2009.04877v1
- Date: Thu, 10 Sep 2020 14:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 03:02:07.989664
- Title: Text-independent writer identification using convolutional neural
network
- Title(参考訳): 畳み込みニューラルネットワークを用いたテキスト非依存ライタ識別
- Authors: Hung Tuan Nguyen, Cuong Tuan Nguyen, Takeya Ino, Bipin Indurkhya,
Masaki Nakagawa
- Abstract要約: テキストに依存しない著者識別のためのエンドツーエンドのディープラーニング手法を提案する。
我々の手法は作家を分類するために91.81%以上の精度を達成した。
- 参考スコア(独自算出の注目度): 8.526559246026162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The text-independent approach to writer identification does not require the
writer to write some predetermined text. Previous research on text-independent
writer identification has been based on identifying writer-specific features
designed by experts. However, in the last decade, deep learning methods have
been successfully applied to learn features from data automatically. We propose
here an end-to-end deep-learning method for text-independent writer
identification that does not require prior identification of features. A
Convolutional Neural Network (CNN) is trained initially to extract local
features, which represent characteristics of individual handwriting in the
whole character images and their sub-regions. Randomly sampled tuples of images
from the training set are used to train the CNN and aggregate the extracted
local features of images from the tuples to form global features. For every
training epoch, the process of randomly sampling tuples is repeated, which is
equivalent to a large number of training patterns being prepared for training
the CNN for text-independent writer identification. We conducted experiments on
the JEITA-HP database of offline handwritten Japanese character patterns. With
200 characters, our method achieved an accuracy of 99.97% to classify 100
writers. Even when using 50 characters for 100 writers or 100 characters for
400 writers, our method achieved accuracy levels of 92.80% or 93.82%,
respectively. We conducted further experiments on the Firemaker and IAM
databases of offline handwritten English text. Using only one page per writer
to train, our method achieved over 91.81% accuracy to classify 900 writers.
Overall, we achieved a better performance than the previously published best
result based on handcrafted features and clustering algorithms, which
demonstrates the effectiveness of our method for handwritten English text also.
- Abstract(参考訳): ライター識別に対するテキストに依存しないアプローチは、ライターが所定のテキストを書く必要はない。
テキスト非依存のライター識別に関するこれまでの研究は、専門家が設計したライター固有の特徴の同定に基づいている。
しかし、過去10年間で、データから機能を自動的に学習するディープラーニング手法が成功している。
本稿では,特徴の事前識別を必要としないテキスト非依存ライタ識別のためのエンドツーエンドディープラーニング手法を提案する。
まず、畳み込みニューラルネットワーク(cnn)を訓練し、文字画像全体とそのサブ領域における個々の手書きの特徴を表す局所的特徴を抽出する。
トレーニングセットからランダムにサンプリングされた画像タプルを使用してcnnを訓練し、タプルから抽出された画像のローカルな特徴を集約し、グローバルな特徴を形成する。
トレーニング時代ごとに、タプルをランダムにサンプリングするプロセスを繰り返し、テキスト非依存のライター識別のためにcnnをトレーニングするために準備されている多くのトレーニングパターンと等価である。
オフライン手書き文字パターンのJEITA-HPデータベース上で実験を行った。
200文字で精度99.97%の精度で100人の作家を分類した。
100人用50文字、400人用100文字を使用しても、それぞれ92.80%または93.82%の精度を達成した。
オフライン手書き英語テキストのfiremakerおよびiamデータベースについてさらに実験を行った。
1ページあたりの学習のみを用いて91.81%の精度で900人の作家を分類した。
全体としては,手書き英語テキストの手法の有効性を示す手書き特徴とクラスタリングアルゴリズムに基づいて,これまで公表した最高の結果よりも優れた性能を実現した。
関連論文リスト
- Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Kurdish Handwritten Character Recognition using Deep Learning Techniques [26.23274417985375]
本稿では、深層学習技術を用いてクルド語アルファベットの文字を認識可能なモデルの設計と開発を試みる。
4000万枚以上の画像を含む、手書きのクルド文字のための包括的なデータセットが作成された。
結果,精度は96%,トレーニング精度は97%であった。
論文 参考訳(メタデータ) (2022-10-18T16:48:28Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Writer Recognition Using Off-line Handwritten Single Block Characters [59.17685450892182]
我々は、生年月日DoBの6桁の個人番号を使用する。
本稿では,方向測定を行う手作り特徴に基づく認識手法と,ResNet50モデルによる深い特徴に基づく認識手法について検討する。
その結果,DoBでは手書き情報に同一性関連情報が6桁程度存在することがわかった。
論文 参考訳(メタデータ) (2022-01-25T23:04:10Z) - Handwriting recognition and automatic scoring for descriptive answers in
Japanese language tests [7.489722641968594]
本報告では, 大学入試試験における手書き記述回答の自動評価実験について述べる。
すべての答えは人間の検査官によって採点されているが、手書き文字はラベル付けされていない。
我々は、ラベル付き手書きデータセットで訓練されたディープニューラルネットワークベースの手書き文字認識器を、このラベル付き回答セットに適応させようと試みる。
論文 参考訳(メタデータ) (2022-01-10T08:47:52Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Exploiting Multi-Scale Fusion, Spatial Attention and Patch Interaction
Techniques for Text-Independent Writer Identification [15.010153819096056]
本稿では,3つの異なる深層学習手法 – 空間的注意機構,マルチスケール特徴融合,パッチベースCNN – を提案する。
提案手法は,3つの公開データセット上で,ワードレベルおよびページレベルの書き手識別手法において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-11-20T14:41:36Z) - Writer Identification Using Microblogging Texts for Social Media
Forensics [53.180678723280145]
私たちは、文学的分析に広く使われている人気のあるスタイル的特徴と、URL、ハッシュタグ、返信、引用などの特定のTwitter機能を評価します。
我々は、様々なサイズの著者集合と、著者毎のトレーニング/テストテキストの量をテストする。
論文 参考訳(メタデータ) (2020-07-31T00:23:18Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z) - Forensic Authorship Analysis of Microblogging Texts Using N-Grams and
Stylometric Features [63.48764893706088]
この研究は、280文字に制限されたツイートメッセージの作者を特定することを目的としている。
弊社の実験では、40名のユーザによる、ユーザ毎120から200のつぶやきを自己キャプチャしたデータベースを使っています。
この小さなセットを使った結果は有望であり、異なる特徴は92%から98.5%の分類精度を提供する。
論文 参考訳(メタデータ) (2020-03-24T19:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。