論文の概要: Finetuning Vision-Language Models as OCR Systems for Low-Resource Languages: A Case Study of Manchu
- arxiv url: http://arxiv.org/abs/2507.06761v1
- Date: Wed, 09 Jul 2025 11:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.565679
- Title: Finetuning Vision-Language Models as OCR Systems for Low-Resource Languages: A Case Study of Manchu
- Title(参考訳): 低リソース言語用OCRシステムとしての微調整視覚言語モデル:満州を事例として
- Authors: Yan Hon Michael Chung, Donghyeok Choi,
- Abstract要約: 危険に晒された言語である満州には、現実世界の歴史的文書を扱うことができる効果的なOCRシステムがない。
本研究では,3つのオープンソースビジョン言語モデルを微調整し,高性能なOCRシステムを構築する。
LLaMA-3.2-11Bは98.3%の単語精度と0.0024文字誤り率で優れた性能を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manchu, a critically endangered language essential for understanding early modern Eastern Eurasian history, lacks effective OCR systems that can handle real-world historical documents. This study develops high-performing OCR systems by fine-tuning three open-source vision-language models (LLaMA-3.2-11B, Qwen2.5-VL-7B, Qwen2.5-VL-3B) on 60,000 synthetic Manchu word images using parameter-efficient training. LLaMA-3.2-11B achieved exceptional performance with 98.3\% word accuracy and 0.0024 character error rate on synthetic data, while crucially maintaining 93.1\% accuracy on real-world handwritten documents. Comparative evaluation reveals substantial advantages over traditional approaches: while a CRNN baseline achieved 99.8\% synthetic accuracy, it suffered severe degradation to 72.5\% on real documents. Our approach demonstrates effective synthetic-to-real domain transfer, providing a cost-effective solution deployable on accessible infrastructure. This work establishes a transferable framework for endangered language OCR that removes technical and financial barriers in digital humanities, enabling historians and linguists to process historical archives without specialized computing resources. Code and model weights are available at https://github.com/mic7ch1/ManchuAI-OCR.
- Abstract(参考訳): 古代東ユーラシアの歴史を理解するのに必須の危惧言語である満州には、現実世界の史料を扱うことができる効果的なOCRシステムがない。
本研究では,6万の合成満州語画像に対してパラメータ効率の訓練を施した3つのオープンソースビジョン言語モデル(LLaMA-3.2-11B,Qwen2.5-VL-7B,Qwen2.5-VL-3B)を微調整し,高性能なOCRシステムの開発を行った。
LLaMA-3.2-11Bは98.3\%の単語精度と0.0024の文字誤り率で優れた性能を発揮し、実際の手書き文書では93.1\%の精度を維持した。
CRNNのベースラインは99.8 %の合成精度を達成したが、実際の文書では72.5 %まで大幅に劣化した。
提案手法は,効率的な合成ドメイン転送を実証し,アクセス可能なインフラストラクチャにデプロイ可能なコスト効率の高いソリューションを提供する。
この研究は、デジタル人文科学における技術的および経済的障壁を取り除く、絶滅危惧言語OCRの転送可能なフレームワークを確立し、歴史学者や言語学者が特別な計算資源を使わずに歴史的なアーカイブを処理できるようにする。
コードとモデルの重み付けはhttps://github.com/mic7ch1/ManchuAI-OCRで確認できる。
関連論文リスト
- KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - Harnessing PDF Data for Improving Japanese Large Multimodal Models [56.80385809059738]
大規模マルチモーダルモデル (LMM) は英語では高い性能を示したが、日本語では有効性は限られている。
現在の日本のLMMは、しばしば翻訳された英語のデータセットに依存しており、日本固有の文化知識を捉える能力を制限する。
我々は、事前訓練されたモデルを利用してPDFから画像とテキストのペアを抽出する完全自動パイプラインを導入する。
論文 参考訳(メタデータ) (2025-02-20T17:59:59Z) - Scrambled text: training Language Models to correct OCR errors using synthetic data [0.0]
本稿では,合成データ上での言語モデルの微調整により,OCRエラーの修正能力が大幅に向上することを示す。
合成データで訓練されたモデルは、文字誤り率を55%減らし、単語誤り率を32%減らし、実際のデータで訓練されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-29T15:20:37Z) - CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的文脈を提供する価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - Cleansing Jewel: A Neural Spelling Correction Model Built On Google OCR-ed Tibetan Manuscripts [12.346821696831805]
我々は,Google OCR-ed Tibetan Manuscripts 上に構築したニューラルスペル補正モデルを用いて,OCR-ed noisy出力の自動補正を行う。
本稿では、データセット、モデルアーキテクチャ、トレーニング、分析の4つのセクションに分けられる。
論文 参考訳(メタデータ) (2023-04-07T00:45:12Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - OCR Post Correction for Endangered Language Texts [113.8242302688894]
我々は、3つの危惧言語でスキャンされた書籍の書き起こしのベンチマークデータセットを作成する。
本稿では,汎用OCRツールがデータ・スカース・セッティングに対して堅牢でないかを体系的に分析する。
我々は,このデータ・スカース・セッティングにおけるトレーニングを容易にするために,OCRポスト補正法を開発した。
論文 参考訳(メタデータ) (2020-11-10T21:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。