論文の概要: Beyond the Pipeline: Analyzing Key Factors in End-to-End Deep Learning for Historical Writer Identification
- arxiv url: http://arxiv.org/abs/2510.18671v1
- Date: Tue, 21 Oct 2025 14:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.729374
- Title: Beyond the Pipeline: Analyzing Key Factors in End-to-End Deep Learning for Historical Writer Identification
- Title(参考訳): パイプラインを超えて: 歴史作家識別のためのエンド・ツー・エンド深層学習における重要な要因の分析
- Authors: Hanif Rasyidi, Moshiur Farazi,
- Abstract要約: 本稿では,歴史作家識別のためのエンド・ツー・エンド深層学習手法の性能に影響を及ぼす諸要因について検討する。
従来のHWI手法は手作りの画像処理とクラスタリング技術に依存しており、小さなデータセットでよく機能する傾向にある。
エンドツーエンドパイプラインは、ドキュメントイメージから直接機能を学ぶことによって、プロセスを自動化することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates various factors that influence the performance of end-to-end deep learning approaches for historical writer identification (HWI), a task that remains challenging due to the diversity of handwriting styles, document degradation, and the limited number of labelled samples per writer. These conditions often make accurate recognition difficult, even for human experts. Traditional HWI methods typically rely on handcrafted image processing and clustering techniques, which tend to perform well on small and carefully curated datasets. In contrast, end-to-end pipelines aim to automate the process by learning features directly from document images. However, our experiments show that many of these models struggle to generalise in more realistic, document-level settings, especially under zero-shot scenarios where writers in the test set are not present in the training data. We explore different combinations of pre-processing methods, backbone architectures, and post-processing strategies, including text segmentation, patch sampling, and feature aggregation. The results suggest that most configurations perform poorly due to weak capture of low-level visual features, inconsistent patch representations, and high sensitivity to content noise. Still, we identify one end-to-end setup that achieves results comparable to the top-performing system, despite using a simpler design. These findings point to key challenges in building robust end-to-end systems and offer insight into design choices that improve performance in historical document writer identification.
- Abstract(参考訳): 本稿では,歴史作家識別(HWI)におけるエンド・ツー・エンドの深層学習手法の性能に影響を与える諸要因について検討する。
これらの条件はしばしば、人間の専門家にとっても正確な認識を困難にしている。
従来のHWI手法は、手作りの画像処理とクラスタリング技術に依存しており、小規模で慎重にキュレートされたデータセットでよく機能する傾向にある。
対照的に、エンドツーエンドパイプラインは、ドキュメントイメージから直接機能を学ぶことによって、プロセスを自動化することを目的としている。
しかし、これらのモデルの多くは、特にテストセットのライターがトレーニングデータに存在しないゼロショットシナリオにおいて、より現実的でドキュメントレベルの設定を一般化するのに苦労している。
テキストセグメンテーション,パッチサンプリング,機能集約など,前処理方法,バックボーンアーキテクチャ,後処理戦略のさまざまな組み合わせについて検討する。
その結果、ほとんどの構成は、低レベルの視覚的特徴の弱いキャプチャ、一貫性のないパッチ表現、コンテンツノイズに対する高い感度により、性能が悪くなっていることが示唆された。
それでも、よりシンプルな設計を用いても、トップパフォーマンスシステムに匹敵する結果が得られるエンドツーエンドのセットアップを1つ特定する。
これらの知見は、堅牢なエンドツーエンドシステムの構築において重要な課題を示し、歴史的文書作成者の識別におけるパフォーマンス向上のための設計選択に関する洞察を提供する。
関連論文リスト
- Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - Improving embedding with contrastive fine-tuning on small datasets with expert-augmented scores [12.86467344792873]
提案手法では,専門的なスコアから派生したソフトラベルをファインチューン埋め込みモデルに適用する。
オンラインショッピングサイトと8つのエキスパートモデルからQ&Aデータセットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-08-19T01:59:25Z) - Deep Learning-Driven Approach for Handwritten Chinese Character Classification [0.0]
手書き文字認識は、機械学習研究者にとって難しい問題である。
多数のユニークな文字クラスが存在するため、ロジカルスクリプトや中韓文字シーケンスのようなデータによっては、HCR問題に新たな複雑さをもたらす。
本稿では、モデルアーキテクチャ、データ前処理ステップ、設計手順のテストを導入し、詳細な文字画像分類のための高度にスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-30T15:29:32Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z) - Efficient few-shot learning for pixel-precise handwritten document
layout analysis [11.453393410516991]
レイアウト解析のための効率的な数ショット学習フレームワークを提案する。
公開されているDIVA-HisDBデータセット上で、最先端の完全な教師付きメソッドに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-27T16:03:52Z) - Robust Text Line Detection in Historical Documents: Learning and
Evaluation Methods [1.9938405188113029]
本稿では,3つの最先端システムDoc-UFCN,dhSegment,ARU-Netを用いて実験を行った。
多様な未確認ページを正確にセグメント化できる,さまざまな履歴文書データセットに基づいてトレーニングされた汎用モデルを構築することが可能であることを示す。
論文 参考訳(メタデータ) (2022-03-23T11:56:25Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。