論文の概要: OmniOCR: Generalist OCR for Ethnic Minority Languages
- arxiv url: http://arxiv.org/abs/2602.21042v1
- Date: Tue, 24 Feb 2026 16:02:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.827057
- Title: OmniOCR: Generalist OCR for Ethnic Minority Languages
- Title(参考訳): OmniOCR: 民族マイノリティ言語のための汎用OCR
- Authors: Bonan Liu, Zeyu Zhang, Bingbing Meng, Han Wang, Hanshuo Zhang, Chengping Wang, Daji Ergu, Ying Cai,
- Abstract要約: OmniOCRは、少数民族のスクリプトのための普遍的なフレームワークである。
Dynamic Low-Rank Adaptation (Dynamic LoRA)はレイヤとスクリプト間でモデルキャパシティを割り当てる。
スパーシティ正規化は冗長な更新を伴い、余分な推論コストを伴わずにコンパクトで効率的な適応を保証する。
- 参考スコア(独自算出の注目度): 7.516228929594496
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Optical character recognition (OCR) has advanced rapidly with deep learning and multimodal models, yet most methods focus on well-resourced scripts such as Latin and Chinese. Ethnic minority languages remain underexplored due to complex writing systems, scarce annotations, and diverse historical and modern forms, making generalization in low-resource or zero-shot settings challenging. To address these challenges, we present OmniOCR, a universal framework for ethnic minority scripts. OmniOCR introduces Dynamic Low-Rank Adaptation (Dynamic LoRA) to allocate model capacity across layers and scripts, enabling effective adaptation while preserving knowledge.A sparsity regularization prunes redundant updates, ensuring compact and efficient adaptation without extra inference cost. Evaluations on TibetanMNIST, Shui, ancient Yi, and Dongba show that OmniOCR outperforms zero-shot foundation models and standard post training, achieving state-of-the-art accuracy with superior parameter efficiency, and compared with the state-of-the-art baseline models, it improves accuracy by 39%-66% on these four datasets. Code: https://github.com/AIGeeksGroup/OmniOCR.
- Abstract(参考訳): オプティカル文字認識(OCR)は、ディープラーニングやマルチモーダルモデルによって急速に進歩しているが、ほとんどの手法はラテン文字や中国語など、よく出力されたスクリプトに焦点を当てている。
民族マイノリティ言語は、複雑な書記システム、希少な注釈、様々な歴史的・近代的な形式のために未発見のままであり、低リソースまたはゼロショット設定での一般化を困難にしている。
これらの課題に対処するため、我々は少数民族スクリプトの普遍的な枠組みであるOmniOCRを提示する。
OmniOCRはDynamic Low-Rank Adaptation (Dynamic LoRA)を導入し、レイヤやスクリプト間でモデルのキャパシティを割り当て、知識を保存しながら効果的な適応を可能にする。
チベットMNIST、Shui、古代Yi、Dongbaの評価によると、OmniOCRはゼロショットの基礎モデルと標準ポストトレーニングを上回り、パラメータ効率の優れた最先端の精度を実現し、最先端のベースラインモデルと比較すると、これらの4つのデータセットの精度は39%-66%向上している。
コード:https://github.com/AIGeeksGroup/OmniOCR
関連論文リスト
- Automated Invoice Data Extraction: Using LLM and OCR [0.0]
この研究は、OCR、ディープラーニング、LLM(Large Language Models)、グラフ分析を組み合わせた総合人工知能(AI)プラットフォームを導入し、前例のない抽出品質と一貫性を実現する。
論文 参考訳(メタデータ) (2025-11-01T19:05:09Z) - PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language [2.1540520105079697]
我々はPashto OCRデータセット(PsOCR)を開発し、単語、行、文書レベルで境界ボックスを付加した100万枚の画像からなる。
PsOCRは1000種類のフォントファミリ、色、画像サイズ、レイアウトをカバーしている。
7つのオープンソースモデルを含む複数のLMMの性能を評価するため、10K画像のベンチマークサブセットが選択された。
Geminiはすべてのモデルの中で最高のパフォーマンスを達成しているが、オープンソースモデルではQwen-7Bが際立っている。
論文 参考訳(メタデータ) (2025-05-15T07:58:38Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - GenKIE: Robust Generative Multimodal Document Key Information Extraction [24.365711528919313]
スキャンした文書から重要情報を抽出する手法は,様々な領域に応用されているため注目されている。
我々は,KIEタスクに対処する新しい生成的エンドツーエンドモデルであるGenkieを提案する。
生成モデルの顕著な利点は、OCRエラーの自動修正を可能にすることである。
論文 参考訳(メタデータ) (2023-10-24T19:12:56Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。
この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。
以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。