論文の概要: The Devil is in the Details -- From OCR for Old Church Slavonic to Purely Visual Stemma Reconstruction
- arxiv url: http://arxiv.org/abs/2604.11724v1
- Date: Mon, 13 Apr 2026 16:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.701399
- Title: The Devil is in the Details -- From OCR for Old Church Slavonic to Purely Visual Stemma Reconstruction
- Title(参考訳): The Devil is in the details -- From OCR for Old Church Slavonic to Purely Visual Stemma Reconstruction
- Authors: Armin Hoenen,
- Abstract要約: 調査は、古典的なオーバー機械学習からLLMまで、様々なOCRシステムを比較し始め、18世紀の後期手書きの教会スラヴォニック写本の約6,000文字を比較した。
実験によると、基本的な文字に対する教会のスラヴ的CERは2-3%にまで達するかもしれないが、精巧なダイアクリティカルは依然として問題となる可能性がある。
下流タスクとしてのOCRの素性幹細胞学は、記事の第2部へのエントリポイントである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The age of artificial intelligence has brought many new possibilities and pitfalls in many fields and tasks. The devil is in the details, and those come to the fore when building new pipelines and executing small practical experiments. OCR and stemmatology are no exception. The current investigation starts comparing a range of OCR-systems, from classical over machine learning to LLMs, for roughly 6,000 characters of late handwritten church slavonic manuscripts from the 18th century. Focussing on basic letter correctness, more than 10 CS OCR-systems among which 2 LLMs (GPT5 and Gemini3-flash) are being compared. Then, post-processing via LLMs is assessed and finally, different agentic OCR architectures (specialized post-processing agents, an agentic pipeline and RAG) are tested. With new technology elaborated, experiments suggest, church slavonic CER for basic letters may reach as low as 2-3% but elaborated diacritics could still present a problem. How well OCR can prime stemmatology as a downstream task is the entry point to the second part of the article which introduces a new stemmatic method based solely on image processing. Here, a pipeline of automated visual glyph extraction, clustering and pairwise statistical comparison leading to a distance matrix and ultimately a stemma, is being presented and applied to two small corpora, one for the church slavonic Gospel of Mark from the 14th to 16th centuries, one for the Roman de la Rose in French from the 14th and 15th centuries. Basic functioning of the method can be demonstrated.
- Abstract(参考訳): 人工知能の時代は多くの分野やタスクに多くの新たな可能性と落とし穴をもたらした。
悪魔は細部にあり、それらは新しいパイプラインを構築し、小さな実践的な実験を行うときに目の前に現れる。
OCRと幹細胞学は例外ではない。
現在の調査では、古典的なオーバー機械学習からLLMまで、様々なOCRシステムを比較し始めており、18世紀の後期手書きの教会スラヴォニック写本の約6,000文字が使われている。
基本文字の正しさに焦点をあてて、10以上のCS OCRシステムがあり、そのうち2つのLLM(GPT5とGemini3-flash)が比較されている。
その後、LSMによる後処理を評価し、最終的に異なるエージェントOCRアーキテクチャ(特殊化後処理エージェント、エージェントパイプライン、RAG)をテストする。
新しい技術により、基礎文字に対する教会のスラヴ的CERは2-3%にまで達するかもしれないが、精巧なダイアクリティカルは依然として問題となる可能性がある。
下流タスクとしてのOCRがどの程度有効であるかは、画像処理のみに基づく新しい幹細胞法を導入する記事の第2部へのエントリポイントである。
ここでは、自動化された視覚的グリフ抽出、クラスタリング、そして、距離行列と最終的に幹細胞に繋がる対角的な統計的比較のパイプラインが、14世紀から16世紀にかけてのマルコのスラヴォニック・ゴスペル、14世紀から15世紀までのフランスのローマ・デ・ラ・ローズの2つの小さなコーパスに提示され、適用されている。
この手法の基本機能を示すことができる。
関連論文リスト
- Where Vision Becomes Text: Locating the OCR Routing Bottleneck in Vision-Language Models [2.1942030377331245]
視覚言語モデル(VLM)は画像からテキストを読み取ることができるが、この光学文字認識(OCR)情報は言語処理ストリームにどこから入ってくるのか?
因果介入を用いた3つのアーキテクチャファミリ間のOCRルーティング機構について検討する。
論文 参考訳(メタデータ) (2026-02-26T12:06:02Z) - SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read [43.28273039987167]
テキストクエリを画像に直接描画するVisualized-Question (VQ) 設定を導入する。
強力なOCR能力を持つにもかかわらず、モデルはVQ設定で最大12.7%の性能低下に悩まされる。
学習プロセスに構造的制約を課すプラグアンドプレイトレーニング戦略であるSimpleOCRを提案する。
論文 参考訳(メタデータ) (2026-02-25T21:36:30Z) - Training Kindai OCR with parallel textline images and self-attention feature distance-based loss [0.6767885381740952]
並列画像対の自己意図的特徴間のギャップを最小限に抑えるために,距離に基づく目的関数を導入する。
本手法は,自己認識表現の識別品質を向上し,歴史文書のOCR性能を向上する。
論文 参考訳(メタデータ) (2025-08-12T01:01:32Z) - LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images? [80.4577892387028]
テキストリッチな画像上でLMMの論理的推論能力を評価するために設計された1,100の多重選択質問からなるベンチマークであるLogicOCRを紹介する。
我々は、テキストコーパスをマルチモーダルサンプルに変換するスケーラブルで自動化されたパイプラインを開発した。
我々は,Chain-of-Thought (CoT) とダイレクト・アンサー・セッティングの両方で,オープンソースとプロプライエタリなLMMを多岐にわたって評価する。
論文 参考訳(メタデータ) (2025-05-18T08:39:37Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - Language-only Efficient Training of Zero-shot Composed Image Retrieval [46.93446891158521]
合成画像検索(CIR)タスクは、画像とテキストの合成クエリを処理し、両方の条件で相対的な画像を検索する。
本稿では,学習に言語のみを用いる新しいCIRフレームワークを提案する。
我々のLinCIR(Language-only Training for CIR)は、SMP(Self-Masking projection)と呼ばれる新しいセルフスーパービジョンによって、テキストデータセットでのみ訓練することができる。
論文 参考訳(メタデータ) (2023-12-04T16:22:06Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - A Novel Pipeline for Improving Optical Character Recognition through
Post-processing Using Natural Language Processing [2.9499386124223257]
自然言語処理(NLP)ツールを用いた後処理手法を提案する。
この研究は、まず手書きまたは印刷されたテキストでOCRを実行し、次にNLPを使用してその精度を向上させるエンドツーエンドパイプラインを示す。
論文 参考訳(メタデータ) (2023-07-09T18:51:17Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。