論文の概要: VOLTAGE: A Versatile Contrastive Learning based OCR Methodology for ultra low-resource scripts through Auto Glyph Feature Extraction
- arxiv url: http://arxiv.org/abs/2510.10490v1
- Date: Sun, 12 Oct 2025 07:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.972609
- Title: VOLTAGE: A Versatile Contrastive Learning based OCR Methodology for ultra low-resource scripts through Auto Glyph Feature Extraction
- Title(参考訳): VOLTAGE: オートグリフ特徴抽出による超低リソーススクリプトのための可読性コントラスト学習に基づくOCR手法
- Authors: Prawaal Sharma, Poonam Goyal, Vidisha Sharma, Navneet Goyal,
- Abstract要約: ユネスコは世界中で話されている7000言語のうち2500言語を絶滅危惧種に分類している。
低資源言語は絶滅のリスクが高い。
低リソース言語に対する教師なし光学文字認識(OCR)手法の欠如は、そのデジタル包摂を妨げている理由の1つである。
我々は,クラスタベースのラベリングに自動グリフ機能レコメンデーションを活用する,対照的な学習ベースのOCR手法VOLTAGEを提案する。
- 参考スコア(独自算出の注目度): 3.03088776072187
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: UNESCO has classified 2500 out of 7000 languages spoken worldwide as endangered. Attrition of a language leads to loss of traditional wisdom, folk literature, and the essence of the community that uses it. It is therefore imperative to bring digital inclusion to these languages and avoid its extinction. Low resource languages are at a greater risk of extinction. Lack of unsupervised Optical Character Recognition(OCR) methodologies for low resource languages is one of the reasons impeding their digital inclusion. We propose VOLTAGE - a contrastive learning based OCR methodology, leveraging auto-glyph feature recommendation for cluster-based labelling. We augment the labelled data for diversity and volume using image transformations and Generative Adversarial Networks. Voltage has been designed using Takri - a family of scripts used in 16th to 20th century in the Himalayan regions of India. We present results for Takri along with other Indic scripts (both low and high resource) to substantiate the universal behavior of the methodology. An accuracy of 95% for machine printed and 87% for handwritten samples on Takri script has been achieved. We conduct baseline and ablation studies along with building downstream use cases for Takri, demonstrating the usefulness of our work.
- Abstract(参考訳): ユネスコは世界中で話されている7000言語のうち2500言語を絶滅危惧種に分類している。
言語の誘惑は、伝統的な知恵、民俗文学、そしてそれを使うコミュニティの本質を失うことにつながる。
したがって、これらの言語にデジタル・インクルージョンをもたらし、その絶滅を避けることが不可欠である。
低資源言語は絶滅のリスクが高い。
低リソース言語に対する教師なし光学文字認識(OCR)手法の欠如は、そのデジタル包摂を妨げている理由の1つである。
我々は,クラスタベースのラベリングに自動グリフ機能レコメンデーションを活用する,対照的な学習ベースのOCR手法VOLTAGEを提案する。
画像変換とジェネレーティブ・アドバイサル・ネットワークを用いて,多様性と容積のラベル付きデータを拡張する。
電圧は、インドのヒマラヤ地方で16世紀から20世紀にかけて用いられた台本であるタクリを用いて設計されている。
本研究では,Takri と他の Indic スクリプト (低リソースと高リソースの両方) を併用して,方法論の普遍的振る舞いを実証する。
機械印刷で95%、タクリ文字で手書きのサンプルで87%の精度が達成されている。
また,本研究の有用性を実証し,ベースラインおよびアブレーション研究を行い,Takriの下流利用事例を構築した。
関連論文リスト
- Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。
テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文 参考訳(メタデータ) (2024-12-20T18:05:22Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - A Benchmark and Dataset for Post-OCR text correction in Sanskrit [23.45279030301887]
サンスクリット語は古典言語であり、約3000万の写本がデジタル化に適合している。
我々は,30冊の書籍から約218,000文,150万語を含むOCR後テキスト修正データセットを作成した。
論文 参考訳(メタデータ) (2022-11-15T08:32:18Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - HCR-Net: A deep learning based script independent handwritten character
recognition network [5.8067395321424975]
手書き文字認識(HCR)は、数十年の研究にもかかわらず、困難なパターン認識問題である。
我々は、HCR研究のためのスクリプト独立型ディープラーニングネットワーク、HCR-Netを提案し、この分野の新たな研究方向性を定めている。
論文 参考訳(メタデータ) (2021-08-15T05:48:07Z) - Handwritten Script Identification from Text Lines [38.1188690493442]
テキスト行レベルで手書き文書からスクリプトを識別する頑健な手法を提案する。
チェインコードヒストグラム(CCH)と離散フーリエ変換(DFT)を用いて抽出した特徴に基づく。
提案手法は、グジャラート、カンナダ、マラヤラム、オリヤ、タミル、テルグ、ウルドゥーの7文字で書かれた800行の手書きのテキストに対して、ローマ文字とともに実験されている。
論文 参考訳(メタデータ) (2020-09-16T02:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。