論文の概要: A Benchmark of State-Space Models vs. Transformers and BiLSTM-based Models for Historical Newspaper OCR
- arxiv url: http://arxiv.org/abs/2604.00725v1
- Date: Wed, 01 Apr 2026 10:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.941559
- Title: A Benchmark of State-Space Models vs. Transformers and BiLSTM-based Models for Historical Newspaper OCR
- Title(参考訳): 歴史新聞OCRにおける状態空間モデルとトランスフォーマーとBiLSTMモデルの比較
- Authors: Merveilles Agbeti-messan, Thierry Paquet, Clément Chatelain, Pierrick Tranouez, Stéphane Nicolas,
- Abstract要約: 線形時間状態空間モデル(SSM)は、OCRのトランスフォーマーベースのシーケンスモデリングに代わるスケーラブルな代替品である。
我々は、CNNビジュアルエンコーダと双方向および自己回帰型マンバシーケンスモデリングを組み合わせた、SSMに基づく最初のOCRアーキテクチャを提案する。
本研究では,マンバをベースとしたモデルが,推論時間の半分を保ち,メモリスケーリングに優れることを示す。
- 参考スコア(独自算出の注目度): 4.247423625723055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end OCR for historical newspapers remains challenging, as models must handle long text sequences, degraded print quality, and complex layouts. While Transformer-based recognizers dominate current research, their quadratic complexity limits efficient paragraph-level transcription and large-scale deployment. We investigate linear-time State-Space Models (SSMs), specifically Mamba, as a scalable alternative to Transformer-based sequence modeling for OCR. We present to our knowledge, the first OCR architecture based on SSMs, combining a CNN visual encoder with bi-directional and autoregressive Mamba sequence modeling, and conduct a large-scale benchmark comparing SSMs with Transformer- and BiLSTM-based recognizers. Multiple decoding strategies (CTC, autoregressive, and non-autoregressive) are evaluated under identical training conditions alongside strong neural baselines (VAN, DAN, DANIEL) and widely used off-the-shelf OCR engines (PERO-OCR, Tesseract OCR, TrOCR, Gemini). Experiments on historical newspapers from the Bibliothèque nationale du Luxembourg, with newly released >99% verified gold-standard annotations, and cross-dataset tests on Fraktur and Antiqua lines, show that all neural models achieve low error rates (~2% CER), making computational efficiency the main differentiator. Mamba-based models maintain competitive accuracy while halving inference time and exhibiting superior memory scaling (1.26x vs 2.30x growth at 1000 chars), reaching 6.07% CER at the severely degraded paragraph level compared to 5.24% for DAN, while remaining 2.05x faster. We release code, trained models, and standardized evaluation protocols to enable reproducible research and guide practitioners in large-scale cultural heritage OCR.
- Abstract(参考訳): 歴史新聞のエンドツーエンドのOCRは、長いテキストシーケンス、劣化した印刷品質、複雑なレイアウトを扱う必要があるため、依然として困難である。
トランスフォーマーベースの認識器が現在の研究を独占する一方で、その2次複雑さは、効率的な段落レベルの転写と大規模展開を制限している。
線形時間状態空間モデル(SSM)、特にMambaについて、OCRのトランスフォーマーに基づくシーケンスモデリングのスケーラブルな代替として検討する。
我々は,SSMをベースとした最初のOCRアーキテクチャについて述べる。CNNビジュアルエンコーダと双方向および自己回帰的マンバシーケンスモデリングを組み合わせた上で,SSMとTransformerおよびBiLSTMベースの認識器を比較した大規模ベンチマークを行う。
複数の復号化戦略 (CTC, 自己回帰, 非自己回帰) を, 強力なニューラルベースライン (VAN, DAN, DANIEL) とともに同一の訓練条件下で評価し, 市販のOCRエンジン (PERO-OCR, Tesseract OCR, TrOCR, Gemini) に広く用いられている。
Bibliothèque nationale du Luxembourg(英語版)の歴史的新聞の実験では、新たに99%の検証された金標準アノテーションとフラクトゥル線とアンティクァ線でのクロスデータセットテストにより、全てのニューラルモデルが低いエラーレート(〜2% CER)を達成することが示され、計算効率が主な差別化要因となった。
マンバベースのモデルは、推論時間の半分を保ち、優れたメモリスケーリング(1000チャーズで1.26倍対2.30倍)を示しながら、DANの5.24%に対して6.07%のCERに達した。
我々は、再現可能な研究を可能にするためのコード、訓練されたモデル、標準化された評価プロトコルをリリースし、大規模文化遺産OCRの実践者を指導する。
関連論文リスト
- PP-OCRv5: A Specialized 5M-Parameter Model Rivaling Billion-Parameter Vision-Language Models on OCR Tasks [21.41974664575541]
OCR 2.0 と大規模視覚言語モデル (VLM) はテキスト認識のベンチマークを新たに設定した。
PP-OCRv5は,500万のパラメータしか持たない高度に最適化された軽量なOCRシステムである。
論文 参考訳(メタデータ) (2026-03-25T14:54:40Z) - GLM-OCR Technical Report [65.42028025507491]
GLM-OCRは実世界の文書理解のために設計された効率的なコンパクトモデルである。
CogViTビジュアルエンコーダとGLM言語デコーダを組み合わせることで、計算効率と認識性能のバランスが強い。
公開ベンチマークと産業シナリオの大規模な評価は、GLM-OCRが競争力や最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2026-03-11T15:55:47Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - Datarus-R1: An Adaptive Multi-Step Reasoning LLM for Automated Data Analysis [0.0]
本稿では,Qwen 2.5-14B-Instructの言語モデルであるDatarus-R1-14Bを提案する。
Datarusは、独立した問合せペアではなく、推論ステップ、コード実行、エラートレース、自己補正、最終的な結論を含む完全な分析トラジェクトリに基づいて訓練されている。
論文 参考訳(メタデータ) (2025-08-18T21:58:18Z) - Coupling Speech Encoders with Downstream Text Models [4.679869237248675]
カスケード音声翻訳モデルを構築するためのモジュラー手法を提案する。
我々は,与えられたタスクに対して,最先端音声認識(ASR)とテキスト翻訳(MT)の性能を維持する。
論文 参考訳(メタデータ) (2024-07-24T19:29:13Z) - Benchmarking Neural Decoding Backbones towards Enhanced On-edge iBCI Applications [28.482461973598593]
本研究は、エッジ展開に適した堅牢な性能と迅速な推論能力を有する最適な神経復号バックボーンを特定することを目的とする。
我々は、GRU(Gated Recurrent Unit)、Transformer、Receptance Weighted Key Value(RWKV)、Selective State Space Model(Mamba)の4つの予測モデルを評価した。
これらの結果から, GRUモデルでは十分な精度が得られたが, RWKVモデルとMambaモデルの方が推論速度とキャリブレーション速度が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T02:45:36Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Score-based Generative Modeling in Latent Space [93.8985523558869]
スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。
本稿では,Latent Score-based Generative Model (LSGM)を提案する。
データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習することができる。
論文 参考訳(メタデータ) (2021-06-10T17:26:35Z) - TextGNN: Improving Text Encoder via Graph Neural Network in Sponsored
Search [11.203006652211075]
本稿では,ユーザの履歴行動から補完するグラフ情報を用いて,強いツインタワー構造エンコーダを自然に拡張するtextgnnモデルを提案する。
オフライン実験では、ロングテール低周波広告の精度が1%向上し、ROC-AUC全体の0.14%の増加を達成する。
オンラインa/bテストでは、1ミルあたりの収益が2.03%増加し、広告欠陥率は2.32%減少した。
論文 参考訳(メタデータ) (2021-01-15T23:12:47Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。