論文の概要: Siamese based Neural Network for Offline Writer Identification on word
level data
- arxiv url: http://arxiv.org/abs/2211.14443v1
- Date: Thu, 17 Nov 2022 10:01:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:25:00.514792
- Title: Siamese based Neural Network for Offline Writer Identification on word
level data
- Title(参考訳): 単語レベルデータに基づくオフライン作者識別のためのシームズ型ニューラルネットワーク
- Authors: Vineet Kumar and Suresh Sundaram
- Abstract要約: 入力語画像に基づいて文書の著者を特定する新しい手法を提案する。
本手法はテキスト独立であり,入力画像のサイズに制約を課さない。
- 参考スコア(独自算出の注目度): 7.747239584541488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwriting recognition is one of the desirable attributes of document
comprehension and analysis. It is concerned with the documents writing style
and characteristics that distinguish the authors. The diversity of text images,
notably in images with varying handwriting, makes the process of learning good
features difficult in cases where little data is available. In this paper, we
propose a novel scheme to identify the author of a document based on the input
word image. Our method is text independent and does not impose any constraint
on the size of the input image under examination. To begin with, we detect
crucial components in handwriting and extract regions surrounding them using
Scale Invariant Feature Transform (SIFT). These patches are designed to capture
individual writing features (including allographs, characters, or combinations
of characters) that are likely to be unique for an individual writer. These
features are then passed through a deep Convolutional Neural Network (CNN) in
which the weights are learned by applying the concept of Similarity learning
using Siamese network. Siamese network enhances the discrimination power of CNN
by mapping similarity between different pairs of input image. Features learned
at different scales of the extracted SIFT key-points are encoded using Sparse
PCA, each components of the Sparse PCA is assigned a saliency score signifying
its level of significance in discriminating different writers effectively.
Finally, the weighted Sparse PCA corresponding to each SIFT key-points is
combined to arrive at a final classification score for each writer. The
proposed algorithm was evaluated on two publicly available databases (namely
IAM and CVL) and is able to achieve promising result, when compared with other
deep learning based algorithm.
- Abstract(参考訳): 手書き認識は文書理解と分析の望ましい属性の1つである。
作者を区別する文書の書体や特徴が関係している。
テキスト画像の多様性、特に手書きの異なる画像では、ほとんどデータが得られない場合には、優れた特徴の学習が困難になる。
本稿では,入力語画像に基づいて文書の著者を識別する新しい手法を提案する。
本手法はテキスト独立であり,検討中の入力画像のサイズに制約を課さない。
まず,手書き文字の重要成分を検出し,その周辺領域をスケール不変特徴変換(SIFT)を用いて抽出する。
これらのパッチは、個々のライターに特有の、個々の書き込み特徴(アログラフ、文字、または文字の組み合わせを含む)をキャプチャするように設計されている。
これらの特徴は深層畳み込みニューラルネットワーク(CNN)に渡され、シームズネットワークを用いた類似性学習の概念を適用することで重みが学習される。
シームズネットワークは、異なる入力画像のペア間の類似性をマッピングすることにより、CNNの識別能力を高める。
抽出したSIFTキーポイントの異なるスケールで学習した特徴をスパースPCAを用いて符号化し、スパースPCAの各コンポーネントに、異なるライターを効果的に識別する重要性のレベルを示すサリエンシスコアを割り当てる。
最後に、SIFTの各キーポイントに対応する重み付きスパースPCAを組み合わせ、各ライターの最終分類スコアに到達する。
提案アルゴリズムは、2つの公開データベース(すなわちIAMとCVL)で評価され、他のディープラーニングベースのアルゴリズムと比較して有望な結果が得られる。
関連論文リスト
- Attention based End to end network for Offline Writer Identification on Word level data [3.5829161769306244]
注意駆動型畳み込みニューラルネットワーク(CNN)に基づく著者識別システムを提案する。
このシステムは、単語画像から抽出された断片として知られる画像セグメントを利用して、ピラミッドベースの戦略を用いて訓練されている。
提案アルゴリズムの有効性を3つのベンチマークデータベースで評価した。
論文 参考訳(メタデータ) (2024-04-11T09:41:14Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Offline Text-Independent Writer Identification based on word level data [7.747239584541488]
本稿では,個人の手書き入力語画像に基づいて,文書の著者を識別する新しい手法を提案する。
SIFTアルゴリズムを用いて、様々な抽象化レベルにおいて複数のキーポイントを抽出する。
これらのキーポイントはトレーニングされたCNNネットワークに渡され、畳み込み層に対応する特徴マップを生成する。
論文 参考訳(メタデータ) (2022-02-21T13:32:09Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Towards an IMU-based Pen Online Handwriting Recognizer [2.6707647984082357]
慣性測定単位(IMU)に基づく音声認識のためのオンライン手書き認識システムを提案する。
これは、加速度、角速度、およびBluetooth経由で流れる磁力を提供するセンサー付きペンによって得られる。
本モデルは畳み込み型LSTMネットワークと双方向型LSTMネットワークを組み合わせることで,コネクショナリストの時間的分類損失をトレーニングする。
論文 参考訳(メタデータ) (2021-05-26T09:47:19Z) - Arabic Handwritten Character Recognition based on Convolution Neural
Networks and Support Vector Machine [0.0]
本稿では,ディープ畳み込みニューラルネットワーク(DCNN)とサポートベクタマシン(SVM)を用いたアラビア文字と文字の認識アルゴリズムを提案する。
本稿では,入力テンプレートと事前記憶テンプレートとの類似性を決定することで,アラビア文字認識の問題に対処する。
本研究は,提案アルゴリズムが入力された手書きアラビア語文字を認識し,識別し,検証する能力を示すものである。
論文 参考訳(メタデータ) (2020-09-28T16:18:52Z) - Pairwise Learning for Name Disambiguation in Large-Scale Heterogeneous
Academic Networks [81.00481125272098]
本稿では,MA-PairRNN(Multi-view Attention-based Pairwise Recurrent Neural Network)を提案する。
MA-PairRNNは、不均一グラフ埋め込み学習とペアワイズ類似学習をフレームワークに統合する。
実世界の2つのデータセットの結果から、我々のフレームワークは名前の曖昧さに対するパフォーマンスを著しく一貫した改善をしていることがわかる。
論文 参考訳(メタデータ) (2020-08-30T06:08:20Z) - Neural Computing for Online Arabic Handwriting Character Recognition
using Hard Stroke Features Mining [0.0]
オンラインアラビア文字認識における書字ストローク特徴の垂直方向と水平方向から所望の臨界点を検出する方法を提案する。
バックプロパゲーション学習アルゴリズムと修正シグモイド関数に基づくアクティベーション関数を備えた多層パーセプトロンを用いて、文字の分類のためにこれらのトークンから最小の特徴セットを抽出する。
提案手法は,文字認識技術に匹敵する98.6%の平均精度を実現する。
論文 参考訳(メタデータ) (2020-05-02T23:17:08Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。