論文の概要: Exploiting Multi-Scale Fusion, Spatial Attention and Patch Interaction
Techniques for Text-Independent Writer Identification
- arxiv url: http://arxiv.org/abs/2111.10605v1
- Date: Sat, 20 Nov 2021 14:41:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 11:46:45.941256
- Title: Exploiting Multi-Scale Fusion, Spatial Attention and Patch Interaction
Techniques for Text-Independent Writer Identification
- Title(参考訳): テキスト非依存ライタ識別のためのマルチスケール融合・空間的注意・パッチ相互作用手法の活用
- Authors: Abhishek Srivastava, Sukalpa Chanda, Umapada Pal
- Abstract要約: 本稿では,3つの異なる深層学習手法 – 空間的注意機構,マルチスケール特徴融合,パッチベースCNN – を提案する。
提案手法は,3つの公開データセット上で,ワードレベルおよびページレベルの書き手識別手法において,最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 15.010153819096056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text independent writer identification is a challenging problem that
differentiates between different handwriting styles to decide the author of the
handwritten text. Earlier writer identification relied on handcrafted features
to reveal pieces of differences between writers. Recent work with the advent of
convolutional neural network, deep learning-based methods have evolved. In this
paper, three different deep learning techniques - spatial attention mechanism,
multi-scale feature fusion and patch-based CNN were proposed to effectively
capture the difference between each writer's handwriting. Our methods are based
on the hypothesis that handwritten text images have specific spatial regions
which are more unique to a writer's style, multi-scale features propagate
characteristic features with respect to individual writers and patch-based
features give more general and robust representations that helps to
discriminate handwriting from different writers. The proposed methods
outperforms various state-of-the-art methodologies on word-level and page-level
writer identification methods on three publicly available datasets - CVL,
Firemaker, CERUG-EN datasets and give comparable performance on the IAM
dataset.
- Abstract(参考訳): テキスト独立したライター識別は、手書きテキストの作者を決定するために異なる手書きスタイルを区別する難しい問題である。
初期の作家の識別は、作家間の違いを明らかにするために手作りの特徴に頼っていた。
畳み込みニューラルネットワークの出現に伴い、ディープラーニングベースの手法が進化している。
本稿では,著者の筆跡の違いを効果的に把握するために,空間的注意機構,マルチスケール特徴融合,パッチベースCNNの3つの異なる深層学習手法を提案する。
本手法は,手書きテキスト画像が筆跡スタイルに特有の特定の空間領域を有するという仮説に基づいており,マルチスケール機能は個々の筆跡に関して特徴的特徴を広め,パッチベース機能は異なる筆跡から筆跡を識別するための汎用的かつ堅牢な表現を与える。
提案手法は, CVL, Firemaker, CERUG-ENデータセットの3つの公開データセット上で, 単語レベルおよびページレベルライター識別手法の様々な最先端手法よりも優れており, IAMデータセットに匹敵する性能を示している。
関連論文リスト
- Writer Retrieval and Writer Identification in Greek Papyri [4.44566870214758]
著者識別は、既知の著者の分類であり、著者検索は、画像のデータセットにおける画像の類似性によって、著者を見つけようとする。
自動書き手識別・検索手法はすでに多くの歴史的文書タイプに対して有望な結果を提供しているが,繊維構造や重度アーティファクトのため,パピリデータは非常に困難である。
そこで本研究では,パピリ文字における書き手識別の改善に,優れたバイナライゼーションが重要であることを示す。
論文 参考訳(メタデータ) (2022-12-15T08:42:25Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - Neural Text Generation with Part-of-Speech Guided Softmax [82.63394952538292]
テキスト生成を導くために,言語アノテーション,すなわち部分音声(POS)を用いることを提案する。
提案手法は,比較品質を維持しつつ,より多様なテキストを生成できることを示した。
論文 参考訳(メタデータ) (2021-05-08T08:53:16Z) - MultiGBS: A multi-layer graph approach to biomedical summarization [6.11737116137921]
本稿では,文書を多層グラフとしてモデル化し,テキストの複数の特徴を同時に処理可能にするドメイン固有手法を提案する。
教師なしの手法では,MultiRankアルゴリズムと概念数に基づいて,多層グラフから文を選択する。
提案するMultiGBSアルゴリズムはUMLSを採用し,SemRepやMetaMap,OGERといったさまざまなツールを用いて概念と関係を抽出する。
論文 参考訳(メタデータ) (2020-08-27T04:22:37Z) - A Skip-connected Multi-column Network for Isolated Handwritten Bangla
Character and Digit recognition [12.551285203114723]
マルチスケールマルチカラムスキップ畳み込みニューラルネットワークを用いた非明示的特徴抽出手法を提案する。
本手法は,手書き文字と数字の4つの公開データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-27T13:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。