論文の概要: ClapperText: A Benchmark for Text Recognition in Low-Resource Archival Documents
- arxiv url: http://arxiv.org/abs/2510.15557v1
- Date: Fri, 17 Oct 2025 11:44:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.600859
- Title: ClapperText: A Benchmark for Text Recognition in Low-Resource Archival Documents
- Title(参考訳): ClapperText: 低リソースアーカイブ文書のテキスト認識ベンチマーク
- Authors: Tingyu Lin, Marco Peer, Florian Kleber, Robert Sablatnig,
- Abstract要約: ClapperTextは、視覚的に劣化した低リソース設定で手書きおよび印刷されたテキスト認識のためのベンチマークデータセットである。
データセットは、第2次世界大戦時代のクラッパーボードを含む127のアーカイブビデオセグメントに由来する。
クラッパーボードのテキストを認識することは、動きのぼやけ、手書きのバリエーション、露出のゆらぎ、散らかった背景など、大きな課題を生んでいる。
- 参考スコア(独自算出の注目度): 1.2875548392688383
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents ClapperText, a benchmark dataset for handwritten and printed text recognition in visually degraded and low-resource settings. The dataset is derived from 127 World War II-era archival video segments containing clapperboards that record structured production metadata such as date, location, and camera-operator identity. ClapperText includes 9,813 annotated frames and 94,573 word-level text instances, 67% of which are handwritten and 1,566 are partially occluded. Each instance includes transcription, semantic category, text type, and occlusion status, with annotations available as rotated bounding boxes represented as 4-point polygons to support spatially precise OCR applications. Recognizing clapperboard text poses significant challenges, including motion blur, handwriting variation, exposure fluctuations, and cluttered backgrounds, mirroring broader challenges in historical document analysis where structured content appears in degraded, non-standard forms. We provide both full-frame annotations and cropped word images to support downstream tasks. Using a consistent per-video evaluation protocol, we benchmark six representative recognition and seven detection models under zero-shot and fine-tuned conditions. Despite the small training set (18 videos), fine-tuning leads to substantial performance gains, highlighting ClapperText's suitability for few-shot learning scenarios. The dataset offers a realistic and culturally grounded resource for advancing robust OCR and document understanding in low-resource archival contexts. The dataset and evaluation code are available at https://github.com/linty5/ClapperText.
- Abstract(参考訳): 本稿では,手書きテキスト認識と印刷テキスト認識のためのベンチマークデータセットであるClapperTextについて述べる。
データセットは、日付、位置、カメラとオペレーターのアイデンティティなどの構造化された生産メタデータを記録するクラッパーボードを含む、第二次世界大戦前の127のアーカイブビデオセグメントに由来する。
ClapperTextには9,813の注釈付きフレームと94,573のワードレベルのテキストインスタンスがあり、そのうち67%が手書きで、1,566が部分的に無視されている。
それぞれのインスタンスには、転写、セマンティックカテゴリ、テキストタイプ、オクルージョンステータスが含まれており、アノテーションは空間的に正確なOCRアプリケーションをサポートするために、4点ポリゴンとして表される回転バウンディングボックスとして利用できる。
クラッパーボードのテキストを認識することは、動きのぼかし、手書きのばらつき、露出のゆらぎ、散らばった背景など、重要な課題を生じさせ、構造化されたコンテンツが劣化した非標準形式に現れる歴史的文書分析におけるより広い課題を反映している。
下流タスクをサポートするために、フルフレームアノテーションとトリミングされたワードイメージの両方を提供します。
一貫したビデオ毎の評価プロトコルを用いて、ゼロショットおよび微調整条件下で6つの代表認識モデルと7つの検出モデルをベンチマークする。
小さなトレーニングセット(18本のビデオ)にもかかわらず、微調整によってパフォーマンスが大幅に向上し、数ショットの学習シナリオにClapperTextが適していることが浮かび上がっている。
このデータセットは、低リソースのアーカイブコンテキストにおいて、堅牢なOCRとドキュメント理解を促進するために、現実的で文化的に基盤付けられたリソースを提供する。
データセットと評価コードはhttps://github.com/linty5/ClapperTextで公開されている。
関連論文リスト
- TextBite: A Historical Czech Document Dataset for Logical Page Segmentation [0.0]
従来のアプローチは論理的セグメンテーションを定義するためにOCRや正確な幾何学に依存していた。
OCRの必要性を避けるため、我々はタスクを画像領域のセグメンテーションとして純粋に定義する。
我々は18世紀から20世紀にかけてのチェコの歴史文書のデータセットであるTextBiteを紹介した。
データセットは、8,449のページイメージと78,863の注釈付きテキストと、論理的および数学的にコヒーレントなテキストからなる。
論文 参考訳(メタデータ) (2025-03-20T19:19:12Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - Handwritten and Printed Text Segmentation: A Signature Case Study [0.0]
我々は手書きテキストセグメンテーションの課題に対処するための新しいアプローチを開発する。
我々の目的は、クラス全体からテキストを復元することであり、特に重なり合う部分のセグメンテーション性能を向上させることである。
私たちの最高の設定は、以前の2つの異なるデータセットで17.9%、IoUスコアで7.3%のパフォーマンスを上回っています。
論文 参考訳(メタデータ) (2023-07-15T21:49:22Z) - ContextCLIP: Contextual Alignment of Image-Text pairs on CLIP visual
representations [4.588028371034406]
画像テキストペアのコンテキストアライメントのための文脈的・コントラスト的学習フレームワークであるContextCLIPを提案する。
共同埋め込み空間において,テキストと画像表現を文脈的に整列させることにより,画像テキストのアライメントを改善することが観察された。
ContextCLIPは,テキスト・画像検索タスクの質的性能が良好であり,分類精度が向上した。
論文 参考訳(メタデータ) (2022-11-14T05:17:51Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped
scene text [23.04601165885908]
実画像に900kの注釈付き単語を付加した任意の形状のシーンテキストの検出と認識を行うTextOCRを提案する。
現状のテキスト認識(OCR)モデルはTextOCRではうまく動作しないことを示す。
我々はTextOCRトレーニングされたOCRモデルを使用してPixelM4Cモデルを作成し、エンドツーエンドで画像に基づいてシーンテキストベースの推論を行う。
論文 参考訳(メタデータ) (2021-05-12T07:50:42Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。