論文の概要: Low-Resource Heuristics for Bahnaric Optical Character Recognition Improvement
- arxiv url: http://arxiv.org/abs/2601.02965v1
- Date: Tue, 06 Jan 2026 12:22:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.921429
- Title: Low-Resource Heuristics for Bahnaric Optical Character Recognition Improvement
- Title(参考訳): バーナリック光文字認識改善のための低リソースヒューリスティックス
- Authors: Phat Tran, Phuoc Pham, Hung Trinh, Tho Quan,
- Abstract要約: ベトナム、カンボジア、ラオスで話されている少数言語であるBahnarは、限られた研究とデータ可用性のため、重要な保存上の課題に直面している。
本研究は,光学文字認識(OCR)技術を用いて,バーナー語文書の正確なデジタル化の必要性に対処する。
本稿では,高度なテーブルと非テーブル検出技術と確率に基づく後処理を組み合わせた総合的なアプローチを提案し,認識精度を向上させる。
- 参考スコア(独自算出の注目度): 3.2537431443459255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bahnar, a minority language spoken across Vietnam, Cambodia, and Laos, faces significant preservation challenges due to limited research and data availability. This study addresses the critical need for accurate digitization of Bahnar language documents through optical character recognition (OCR) technology. Digitizing scanned paper documents poses significant challenges, as degraded image quality from broken or blurred areas introduces considerable OCR errors that compromise information retrieval systems. We propose a comprehensive approach combining advanced table and non-table detection techniques with probability-based post-processing heuristics to enhance recognition accuracy. Our method first applies detection algorithms to improve input data quality, then employs probabilistic error correction on OCR output. Experimental results indicate a substantial improvement, with recognition accuracy increasing from 72.86% to 79.26%. This work contributes valuable resources for Bahnar language preservation and provides a framework applicable to other minority language digitization efforts.
- Abstract(参考訳): ベトナム、カンボジア、ラオスで話されている少数言語であるBahnarは、限られた研究とデータ可用性のため、重要な保存上の課題に直面している。
本研究は,光学文字認識(OCR)技術を用いて,バーナー語文書の正確なデジタル化の必要性に対処する。
スキャンされた文書のデジタル化は、壊れた領域やぼやけた領域からの画質低下が、情報検索システムに侵入するかなりのOCRエラーをもたらすなど、重大な課題を生んでいる。
本稿では,高度なテーブルと非テーブル検出技術と確率に基づく後処理ヒューリスティックを組み合わせた総合的なアプローチを提案し,認識精度を向上させる。
提案手法はまず,入力データの品質向上のために検出アルゴリズムを適用し,OCR出力に対して確率的誤差補正を用いる。
実験の結果、認識精度は72.86%から79.26%に向上した。
この研究はバーナール語保存のための貴重な資源を提供し、他の少数言語デジタル化の取り組みに適用可能なフレームワークを提供する。
関連論文リスト
- TextSleuth: Towards Explainable Tampered Text Detection [49.88698441048043]
本稿では,大規模なマルチモーダルモデルを用いて,自然言語による改ざんテキスト検出の基礎を説明する。
このタスクのデータギャップを埋めるため,大規模な包括的データセットETTDを提案する。
GPT4oで高品質な異常記述を生成するために、共同クエリが導入された。
低品質なアノテーションを自動的にフィルタリングするために、GPT4oに改ざんされたテキストを認識するよう促すことも提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:03Z) - CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的文脈を提供する価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - Advancements and Challenges in Arabic Optical Character Recognition: A
Comprehensive Survey [0.6629765271909505]
本稿では,アラビア語光文字認識(OCR)に関する現代的応用,方法論,課題の徹底的なレビューを提案する。
OCRプロセス全体で広く利用されている技術について、徹底的な分析を行い、改善された成果を示す最も効果的なアプローチを識別する努力を払っている。
本稿では,最先端技術と手法の提示に加えて,アラビアOCRの領域における研究ギャップを批判的に識別する。
論文 参考訳(メタデータ) (2023-12-19T03:01:31Z) - Stable Messenger: Steganography for Message-Concealed Image Generation [6.310429296631073]
我々は、より総合的な評価のために、デコードされたメッセージ全体を評価する新しいメトリクスである「メッセージ精度」を導入する。
メッセージの精度を高めるために調整された適応的普遍的損失であるLog-Sum-Exponential(LSE)損失を提案する。
我々はまた、事前訓練された安定拡散を利用した高度なステガノグラフィー画像生成のための新しい潜在認識符号化手法である Approach を導入している。
論文 参考訳(メタデータ) (2023-12-03T05:02:43Z) - Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - One-stage Low-resolution Text Recognition with High-resolution Knowledge
Transfer [53.02254290682613]
現在の低解像度テキスト認識のソリューションは、通常2段階のパイプラインに依存している。
本稿では,多段階の知識伝達を実現するための効率的かつ効果的な知識蒸留フレームワークを提案する。
実験の結果、提案されたワンステージパイプラインは、超高解像度ベースの2ステージフレームワークよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-05T02:33:45Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。