論文の概要: Single-sample writers -- "Document Filter" and their impacts on writer
identification
- arxiv url: http://arxiv.org/abs/2005.08424v1
- Date: Mon, 18 May 2020 02:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 23:49:34.925590
- Title: Single-sample writers -- "Document Filter" and their impacts on writer
identification
- Title(参考訳): シングルサンプルライター -- "文書フィルタ" とその作者識別への影響
- Authors: Fabio Pinhelli, Alceu S. Britto Jr, Luiz S. Oliveira, Yandre M. G.
Costa, Diego Bertolini
- Abstract要約: 文書フィルタ」プロトコルは、前処理技術として使用されるはずである。
ドキュメントフィルタ"プロトコルは、ライター自身から機能をキャプチャするように設計されている。
文書フィルター」プロトコルを用いて得られた認識率は81.80%から50.37%に低下した。
- 参考スコア(独自算出の注目度): 7.459089186033613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The writing can be used as an important biometric modality which allows to
unequivocally identify an individual. It happens because the writing of two
different persons present differences that can be explored both in terms of
graphometric properties or even by addressing the manuscript as a digital
image, taking into account the use of image processing techniques that can
properly capture different visual attributes of the image (e.g. texture). In
this work, perform a detailed study in which we dissect whether or not the use
of a database with only a single sample taken from some writers may skew the
results obtained in the experimental protocol. In this sense, we propose here
what we call "document filter". The "document filter" protocol is supposed to
be used as a preprocessing technique, such a way that all the data taken from
fragments of the same document must be placed either into the training or into
the test set. The rationale behind it, is that the classifier must capture the
features from the writer itself, and not features regarding other
particularities which could affect the writing in a specific document (i.e.
emotional state of the writer, pen used, paper type, and etc.). By analyzing
the literature, one can find several works dealing the writer identification
problem. However, the performance of the writer identification systems must be
evaluated also taking into account the occurrence of writer volunteers who
contributed with a single sample during the creation of the manuscript
databases. To address the open issue investigated here, a comprehensive set of
experiments was performed on the IAM, BFL and CVL databases. They have shown
that, in the most extreme case, the recognition rate obtained using the
"document filter" protocol drops from 81.80% to 50.37%.
- Abstract(参考訳): この文章は、特定の個人を特定できる重要な生体認証のモダリティとして使用できる。
これは、2人の異なる人物の筆跡が、画像の異なる視覚的属性(例えばテクスチャ)を適切にキャプチャできる画像処理技術の使用を考慮して、図形的特性の面でも、原稿をデジタル画像として扱うことによっても、探究できる違いがあるためである。
本研究では,一部の著者から採取した1つのサンプルのみを用いたデータベースの使用が,実験プロトコルで得られた結果を歪めることができるかどうかを詳細に検討する。
この意味では、我々は「文書フィルタ」と呼ぶものを提案する。
ドキュメントフィルタ"プロトコルは、前処理のテクニックとして使用されるはずであり、同じドキュメントのフラグメントから取得したすべてのデータを、トレーニングまたはテストセットに配置する必要がある。
その背景にある理論的根拠は、分類器は、特定の文書(例えば、著者の感情状態、使用するペン、用紙の種類など)に影響を及ぼす可能性のある他の特殊性に関する特徴ではなく、作者自身から特徴を捉えなければならないということである。
文献の分析により、著者識別問題を扱ういくつかの作品を見つけることができる。
しかし, 原稿データベース作成の際, 一つのサンプルを寄贈した作家ボランティアの出現も考慮し, 著者識別システムの性能評価を行なわなければならない。
そこで本研究では,IAM,BFL,CVLデータベースを対象とした総合的な実験を行った。
彼らは最も極端な場合、"ドキュメントフィルタ"プロトコルを用いて得られた認識率は81.80%から50.37%に低下することを示した。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - A Novel Dataset for Non-Destructive Inspection of Handwritten Documents [0.0]
法医学的手書き検査は、原稿の著者を適切に定義または仮説化するために手書きの文書を調べることを目的としている。
2つのサブセットからなる新しい挑戦的データセットを提案する。第1は古典的なペンと紙で書かれた21の文書で、後者は後にデジタル化され、タブレットなどの一般的なデバイスで直接取得される。
提案したデータセットの予備的な結果は、第1サブセットで90%の分類精度が得られることを示している。
論文 参考訳(メタデータ) (2024-01-09T09:25:58Z) - Innovative Methods for Non-Destructive Inspection of Handwritten
Documents [0.0]
本稿では,画像処理と深層学習技術を用いて,本文の本質的な尺度を抽出・解析できるフレームワークを提案する。
比較対象文書の特徴ベクトル間のユークリッド距離を定量化することにより、著者を特定することができる。
実験により,異なる執筆媒体の著者を客観的に決定できる手法が得られた。
論文 参考訳(メタデータ) (2023-10-17T12:45:04Z) - Same or Different? Diff-Vectors for Authorship Analysis [78.83284164605473]
古典的な著作物分析において、特徴ベクトルは文書を表し、特徴の値は文書中の特徴の相対周波数(関数の増大)を表し、クラスラベルは文書の著者を表す。
筆者らの実験は共著者検証,著者検証,クローズドセットの著者帰属に取り組んでおり,DVは自然に第1の問題を解くのに向いているが,第2と第3の問題を解くための2つの新しい方法も提供している。
論文 参考訳(メタデータ) (2023-01-24T08:48:12Z) - Writer Retrieval and Writer Identification in Greek Papyri [4.44566870214758]
著者識別は、既知の著者の分類であり、著者検索は、画像のデータセットにおける画像の類似性によって、著者を見つけようとする。
自動書き手識別・検索手法はすでに多くの歴史的文書タイプに対して有望な結果を提供しているが,繊維構造や重度アーティファクトのため,パピリデータは非常に困難である。
そこで本研究では,パピリ文字における書き手識別の改善に,優れたバイナライゼーションが重要であることを示す。
論文 参考訳(メタデータ) (2022-12-15T08:42:25Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Augraphy: A Data Augmentation Library for Document Images [59.457999432618614]
Augraphyはデータ拡張パイプラインを構築するためのPythonライブラリである。
標準的なオフィス操作によって変更されたように見えるクリーンなドキュメントイメージの拡張版を作成するための戦略を提供する。
論文 参考訳(メタデータ) (2022-08-30T22:36:19Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Re-ranking for Writer Identification and Writer Retrieval [8.53463698903858]
我々は,k-相反的近傍関係に基づく再ランクステップが,著者識別に有利であることを示す。
これらの相互関係は、もともと提案されたような新しいベクトルにエンコードするか、クエリ拡張の観点でそれらを統合するかの2つの方法で利用します。
論文 参考訳(メタデータ) (2020-07-14T15:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。