論文の概要: Different Strokes for Different Folks: Writer Identification for Historical Arabic Manuscripts
- arxiv url: http://arxiv.org/abs/2604.22515v1
- Date: Fri, 24 Apr 2026 12:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.458474
- Title: Different Strokes for Different Folks: Writer Identification for Historical Arabic Manuscripts
- Title(参考訳): 異なる民族のための異なるストローク:歴史的アラビア写本の作者同定
- Authors: Hamza A. Abushahla, Ariel Justine N. Panopio, Layth Al-Khairulla, Mohamed I. AlHajri,
- Abstract要約: 手書きのアラビア語写本はアラブ世界の知的・文化的遺産を保存している。
歴史的アラビア写本のムハラフデータセットを用いて,個々の線画像から著者の識別を評価する。
著者識別のための注意機構を備えた畳み込みニューラルネットワーク(CNN)モデルを提案する。
- 参考スコア(独自算出の注目度): 0.5599792629509229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten Arabic manuscripts preserve the Arab world's intellectual and cultural heritage, and writer identification supports provenance, authenticity verification, and historical analysis. Using the Muharaf dataset of historical Arabic manuscripts, we evaluate writer identification from individual line images and, to the best of our knowledge, provide the first baselines reported under both line-level and page-disjoint evaluation protocols. Since the dataset is only partially labeled for writer identification, we manually verified and expanded writer labels in the public portion from 6,858 (28.00%) to 21,249 lines (86.75%) out of 24,495 line images, correcting inconsistencies and removing non-handwritten text. After further filtering, we retained 18,987 lines (77.51%). We propose a Convolutional Neural Network (CNN)-based model with attention mechanisms for closed-set writer identification, including rare two-writer lines modeled as composite writer-pair classes. We benchmark fourteen configurations and conduct ablations across different feature extractors and training regimes. To assess generalization to unseen pages, the page-disjoint protocol assigns all lines from each page to a single split. Under the line-level protocol, a fine-tuned DenseNet201 with attention achieves 99.05% Top-1 accuracy, 99.73% Top-5 accuracy, and 97.44% F1-score. Under the more challenging page-disjoint protocol, the best observed results are 78.61% Top-1 accuracy, 87.79% Top-5 accuracy, and 66.55% F1-score, thus quantifying the impact of page-level cues. By expanding the Muharaf dataset's labeled subset and reporting both protocols, we provide a clearer benchmark and a practical resource for historians and linguists engaged with culturally and historically significant documents. The code and implementation details are available on GitHub.
- Abstract(参考訳): 手書きのアラビア語の写本はアラブ世界の知的・文化的遺産を保存しており、作家の識別は証明、真正性検証、歴史的分析を支持している。
歴史的アラビア写本のムハラフデータセットを用いて、個々の行画像から著者の識別を評価し、私たちの知識を最大限活用するために、行レベルの評価プロトコルとページ分割評価プロトコルの両方で報告された最初のベースラインを提供する。
このデータセットは、一部がライター識別のためだけにラベル付けされているため、24,495行の画像のうち、6,858 (28.00%) から21,249行 (86.75%) まで手動で検証・拡張し、矛盾を修正し、非手書きテキストを削除した。
フィルタリング後、18,987行(77.51%)を保存した。
本稿では,CNNをベースとしたモデルを提案する。このモデルでは,複合文字ペアクラスとしてモデル化された稀な2文字行を含む,クローズドセットのライター識別のための注意機構が提案されている。
14のコンフィグレーションをベンチマークし、異なる特徴抽出器とトレーニング体制にまたがって改善を行う。
未確認ページへの一般化を評価するため、ページ分割プロトコルは各ページから1つのスプリットに全行を割り当てる。
ラインレベルのプロトコルでは、注意を向けた微調整されたDenseNet201が99.05%のTop-1精度、99.73%のTop-5精度、97.44%のF1スコアを達成した。
より困難なページ分割プロトコルの下では、最も観測された結果は78.61%のTop-1精度、87.79%のTop-5精度、66.55%のF1スコアであり、ページレベルのキューの影響を定量化している。
Muharafデータセットのラベル付きサブセットを拡張し、両方のプロトコルを報告することにより、文化的、歴史的に重要な文書を扱う歴史家や言語学者に、より明確なベンチマークと実践的なリソースを提供する。
コードと実装の詳細はGitHubで公開されている。
関連論文リスト
- DohaScript: A Large-Scale Multi-Writer Dataset for Continuous Handwritten Hindi Text [1.299941371793082]
531名のコントリビュータから収集した手書きHindiテキストの大規模マルチライターデータセットであるDohaScriptを紹介した。
このデータセットは平行なスタイリスティックなコーパスとして設計されており、すべてのライターが6つの伝統的なヒンディー教のドーハ(カップレット)の同じ固定セットを転写する。
DohaScriptは、低リソースのスクリプト設定で連続手書きDevanagariテキストの研究を進めるための標準化され再現可能なベンチマークとして機能することを意図している。
論文 参考訳(メタデータ) (2026-02-20T09:25:14Z) - Invizo: Arabic Handwritten Document Optical Character Recognition Solution [2.5819726282014654]
この研究は、アラビア語の手書き、印刷、およびアラビア数字を認識するためのエンドツーエンドのソリューションを提案する。
我々は81.66%の精度、78.82%のリコール、79.07%のF測定に到達した。
論文 参考訳(メタデータ) (2025-02-07T19:25:33Z) - Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [53.189911918976655]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。
OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。
本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-16T11:19:22Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Huruf: An Application for Arabic Handwritten Character Recognition Using
Deep Learning [0.0]
本稿では、アラビア語の文字と数字を認識するための軽量な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したパイプラインは、畳み込み、プール、バッチ正規化、ドロップアウト、最後にグローバル平均レイヤの4つのレイヤを含む合計18層で構成されている。
提案したモデルはそれぞれ96.93%と99.35%の精度を達成し、これは最先端のエンドレベルアプリケーションに適した解決策となった。
論文 参考訳(メタデータ) (2022-12-16T17:39:32Z) - PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。
以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。
セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Text-independent writer identification using convolutional neural
network [8.526559246026162]
テキストに依存しない著者識別のためのエンドツーエンドのディープラーニング手法を提案する。
我々の手法は作家を分類するために91.81%以上の精度を達成した。
論文 参考訳(メタデータ) (2020-09-10T14:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。