論文の概要: Towards the Influence of Text Quantity on Writer Retrieval
- arxiv url: http://arxiv.org/abs/2506.07566v1
- Date: Mon, 09 Jun 2025 09:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.880822
- Title: Towards the Influence of Text Quantity on Writer Retrieval
- Title(参考訳): テキスト量が文字検索に与える影響について
- Authors: Marco Peer, Robert Sablatnig, Florian Kleber,
- Abstract要約: 著者検索は、手書きの類似性に基づいて、データセット内で同じ個人によって作成された文書を識別する。
本稿では,手工芸と深層学習の両方のアプローチを含む,最先端のライター検索システムについて検討する。
- 参考スコア(独自算出の注目度): 1.024113475677323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the task of writer retrieval, which identifies documents authored by the same individual within a dataset based on handwriting similarities. While existing datasets and methodologies primarily focus on page level retrieval, we explore the impact of text quantity on writer retrieval performance by evaluating line- and word level retrieval. We examine three state-of-the-art writer retrieval systems, including both handcrafted and deep learning-based approaches, and analyze their performance using varying amounts of text. Our experiments on the CVL and IAM dataset demonstrate that while performance decreases by 20-30% when only one line of text is used as query and gallery, retrieval accuracy remains above 90% of full-page performance when at least four lines are included. We further show that text-dependent retrieval can maintain strong performance in low-text scenarios. Our findings also highlight the limitations of handcrafted features in low-text scenarios, with deep learning-based methods like NetVLAD outperforming traditional VLAD encoding.
- Abstract(参考訳): 本稿では,手書き類似性に基づいて,同一個人が作成した文書をデータセット内で識別するライター検索の課題について検討する。
既存のデータセットや方法論はページレベルの検索に重点を置いているが,テキスト量による文字検索性能への影響を線量と単語レベルの検索から検討する。
本稿では,手工芸と深層学習の両方のアプローチを含む最先端の3つのライター検索システムについて検討し,その性能を多種多様なテキストを用いて分析する。
CVLおよびIAMデータセットを用いた実験により,1行のテキストのみをクエリやギャラリーとして使用する場合,性能は20~30%低下するが,少なくとも4行を含む場合,検索精度は全ページのパフォーマンスの90%以上であることがわかった。
さらに,テキスト依存検索は低テキストシナリオにおいて高い性能を維持することができることを示す。
また,NetVLADのような深層学習手法が従来のVLAD符号化よりも優れており,低テキストシナリオにおける手作り機能の限界も浮き彫りにしている。
関連論文リスト
- Improving embedding with contrastive fine-tuning on small datasets with expert-augmented scores [12.86467344792873]
提案手法では,専門的なスコアから派生したソフトラベルをファインチューン埋め込みモデルに適用する。
オンラインショッピングサイトと8つのエキスパートモデルからQ&Aデータセットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-08-19T01:59:25Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - The Learnable Typewriter: A Generative Approach to Text Analysis [17.355857281085164]
テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。
同様のフォントや手書きのテキスト行を入力として、我々のアプローチは多数の異なる文字を学習することができる。
論文 参考訳(メタデータ) (2023-02-03T11:17:59Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。