論文の概要: CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition
- arxiv url: http://arxiv.org/abs/2509.19768v1
- Date: Wed, 24 Sep 2025 05:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.693638
- Title: CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition
- Title(参考訳): CHURRO: 高精度・低コスト歴史的テキスト認識のためのオープンウェイト大規模視覚言語モデルによる履歴の読みやすさ
- Authors: Sina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam,
- Abstract要約: 本稿では,3Bパラメータを持つオープンウェイトVLMであるCHURROについて述べる。
CHURROは、これまでで最大の歴史的テキスト認識データセットであるCHURRO-DSで訓練されている。
CHURRO-DSテストセットでは、CHURROは82.3%(印刷)と70.1%(手書き)のレヴェンシュテイン類似性を達成した。
- 参考スコア(独自算出の注目度): 8.652038842552162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate text recognition for historical documents can greatly advance the study and preservation of cultural heritage. Existing vision-language models (VLMs), however, are designed for modern, standardized texts and are not equipped to read the diverse languages and scripts, irregular layouts, and frequent degradation found in historical materials. This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for historical text recognition. The model is trained on CHURRO-DS, the largest historical text recognition dataset to date. CHURRO-DS unifies 155 historical corpora comprising 99,491 pages, spanning 22 centuries of textual heritage across 46 language clusters, including historical variants and dead languages. We evaluate several open-weight and closed VLMs and optical character recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and 70.1% (handwritten) normalized Levenshtein similarity, surpassing the second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being 15.5 times more cost-effective. By releasing the model and dataset, we aim to enable community-driven research to improve the readability of historical texts and accelerate scholarship.
- Abstract(参考訳): 史料の正確なテキスト認識は、文化遺産の研究・保存を大きく前進させる可能性がある。
しかしながら、既存の視覚言語モデル(VLM)は、現代的で標準化されたテキスト用に設計されており、様々な言語やスクリプト、不規則なレイアウト、そして歴史資料に見られる頻繁な劣化を読めない。
本稿では,歴史的テキスト認識に特化した3BパラメトリックオープンウェイトVLMであるCHURROについて述べる。
このモデルは、これまでで最大の歴史的テキスト認識データセットであるCHURRO-DSでトレーニングされている。
CHURRO-DS は 99,491ページからなる155の歴史的コーパスを統一し、歴史的変種や死語を含む46の言語クラスターにわたる22世紀のテキスト的遺産を網羅している。
オープンウェイトかつクローズドなVLMと光学文字認識(OCR)システムをCHURRO-DS上で評価し,CHURROが他のVLMよりも優れていることを確認した。
CHURRO-DSテストセットにおいて、CHURROは82.3%(印刷)と70.1%(手書き)のレヴェンシュテイン類似性を達成し、それぞれ第2のベストモデルであるGemini 2.5 Proを1.4%、第6.5%に上回り、コスト効率は15.5倍に向上した。
モデルとデータセットを公開することにより,コミュニティ主導による研究により,歴史的テキストの可読性の向上と奨学金の促進を目指す。
関連論文リスト
- QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation [0.8944616102795021]
本稿では、アラビア語に段階的に最適化された視覚言語モデルであるQari-OCRを紹介する。
Qari-OCRは、ワード誤り率(WER)0.0160、文字誤り率(CER)0.061、BLEUスコア0.737の新たなオープンソースステート・オブ・ザ・アートを確立している。
論文 参考訳(メタデータ) (2025-06-02T22:21:06Z) - KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding [24.9462694200992]
KITAB-Benchは、現在の評価システムのギャップを埋める包括的なアラビアOCRベンチマークである。
現代の視覚言語モデル(GPT-4o、Gemini、Qwenなど)は、従来のOCRアプローチを平均60%の文字誤り率(CER)で上回っている。
本研究はアラビア文書分析手法の改良を促進するための厳格な評価枠組みを確立する。
論文 参考訳(メタデータ) (2025-02-20T18:41:23Z) - Adapting Multilingual Embedding Models to Historical Luxembourgish [5.474797258314828]
本研究では,歴史的ルクセンブルク語における言語間セマンティック検索のための多言語埋め込みについて検討した。
文のセグメンテーションと翻訳にはGPT-4oを使用し、言語ペア毎に20,000の並列トレーニング文を生成する。
コントラスト学習や知識蒸留により,複数の多言語埋め込みモデルを適応させ,全てのモデルの精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-11T20:35:29Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - MEGATRON-CNTRL: Controllable Story Generation with External Knowledge
Using Large-Scale Language Models [98.53511229517463]
本稿では,大規模言語モデルを用いた新しいフレームワークを提案し,外部知識ベースを組み込んだテキスト生成制御を提案する。
本フレームワークは,キーワード予測器,知識検索器,文脈知識ランキング器,条件付きテキスト生成器から構成される。
実験の結果、我々のモデルは、ROCストーリーデータセットの以前の作業と比較して、反復性が低く、多様性が低い、より流動的で、一貫性があり、一貫性のあるストーリーを生成します。
論文 参考訳(メタデータ) (2020-10-02T08:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。