Fugu-MT 論文翻訳(概要): Enhancing OCR for Sino-Vietnamese Language Processing via Fine-tuned PaddleOCRv5

論文の概要: Enhancing OCR for Sino-Vietnamese Language Processing via Fine-tuned PaddleOCRv5

arxiv url: http://arxiv.org/abs/2510.04003v1
Date: Sun, 05 Oct 2025 02:34:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 16:52:59.387441
Title: Enhancing OCR for Sino-Vietnamese Language Processing via Fine-tuned PaddleOCRv5
Title（参考訳）: 微調整パドルOCRv5によるSino-Vietnamese言語処理のためのOCRの強化
Authors: Minh Hoang Nguyen, Su Nguyen Thiet,
Abstract要約: 我々は,Han-Nomテキストの文字認識を改善するためにPaddleOCRv5の微調整手法を提案する。我々は、古代ベトナムの漢文写本のキュレートされた部分集合を用いて、テキスト認識モジュールを再訓練する。実験の結果,精度は37.5%から50.0%に向上した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recognizing and processing Classical Chinese (Han-Nom) texts play a vital role in digitizing Vietnamese historical documents and enabling cross-lingual semantic research. However, existing OCR systems struggle with degraded scans, non-standard glyphs, and handwriting variations common in ancient sources. In this work, we propose a fine-tuning approach for PaddleOCRv5 to improve character recognition on Han-Nom texts. We retrain the text recognition module using a curated subset of ancient Vietnamese Chinese manuscripts, supported by a full training pipeline covering preprocessing, LMDB conversion, evaluation, and visualization. Experimental results show a significant improvement over the base model, with exact accuracy increasing from 37.5 percent to 50.0 percent, particularly under noisy image conditions. Furthermore, we develop an interactive demo that visually compares pre- and post-fine-tuning recognition results, facilitating downstream applications such as Han-Vietnamese semantic alignment, machine translation, and historical linguistics research. The demo is available at https://huggingface.co/spaces/MinhDS/Fine-tuned-PaddleOCRv5.
Abstract（参考訳）: 古典中国語(漢能)のテキストの認識と処理は、ベトナムの歴史文書のデジタル化と言語間意味研究の実現において重要な役割を担っている。しかし、既存のOCRシステムは、劣化したスキャン、非標準グリフ、そして古代の文献に共通する手書きのバリエーションに悩まされている。本研究では,Han-Nomテキストの文字認識を改善するために,PaddleOCRv5の微調整手法を提案する。我々は,前処理,LMDB変換,評価,可視化を網羅したフルトレーニングパイプラインによって支援された,古代ベトナムの漢文写本のキュレートされたサブセットを用いて,テキスト認識モジュールを再訓練する。実験の結果,特にノイズの多い画像条件下では,精度が37.5%から50.0%に向上した。さらに,ハン=ヴィエトミー意味的アライメント,機械翻訳,歴史言語学研究などの下流アプリケーションを容易にし,学習前と学習後の認識結果を視覚的に比較するインタラクティブなデモを開発した。デモはhttps://huggingface.co/spaces/MinhDS/Fine-tuned-PaddleOCRv5で公開されている。

関連論文リスト

Towards Signboard-Oriented Visual Question Answering: ViSignVQA Dataset, Method and Benchmark [5.3220011447194215]
ViSignVQAは、サインボード指向のVQA用に設計されたベトナム初の大規模データセットである。このデータセットはベトナムの看板の多様な言語的、文化的、視覚的な特徴を捉えている。
論文参考訳（メタデータ） (2025-12-22T13:39:40Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [53.189911918976655]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。 OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文参考訳（メタデータ） (2024-12-16T11:19:22Z)
Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文参考訳（メタデータ） (2024-10-17T08:05:02Z)
Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文参考訳（メタデータ） (2024-02-27T01:57:09Z)
VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension [1.3942150186842373]
本稿では,機械読解作業のためのベトナム語音声コーパスの開発過程について述べる。ベトナムの既存のMRCコーポラは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。対照的に、VlogQAはYouTubeからソースされた1,230の文書に基づいて10,076の質問応答ペアで構成されている。
論文参考訳（メタデータ） (2024-02-05T00:54:40Z)
Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文参考訳（メタデータ） (2023-09-03T05:33:16Z)
Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文参考訳（メタデータ） (2023-09-03T05:30:21Z)
UIT-OpenViIC: A Novel Benchmark for Evaluating Image Captioning in Vietnamese [2.9649783577150837]
ベトナムにおける新しい画像キャプションデータセット、UIT-OpenViICについて紹介する。導入されたデータセットには、ベトナムでキャプチャーされ、厳格な規則と監督の下でベトナムによって手動で注釈付けされる複雑なシーンが含まれている。我々のデータセットは、MS COCOデータセットでよく機能する、最近の最先端(SOTA)トランスフォーマーベースのベースラインに挑戦していることを示す。
論文参考訳（メタデータ） (2023-05-07T02:48:47Z)
UIT-HWDB: Using Transferring Method to Construct A Novel Benchmark for Evaluating Unconstrained Handwriting Image Recognition in Vietnamese [2.8360662552057323]
ベトナム語では、現代のラテン文字以外にアクセントと文字マークがあり、最新式の手書き認識法に混乱をもたらす。低リソース言語として、ベトナムで手書き認識を研究するためのデータセットは少ない。最近の研究は,ペンストローク座標を接続して構築したオンライン手書きデータセットの画像を用いてベトナムにおけるオフライン手書き認識手法の評価を行っている。本稿では,オフライン手書き画像に必要な重要な自然属性を関連付ける手書き画像データセットを構築するための転送手法を提案する。
論文参考訳（メタデータ） (2022-11-10T08:23:54Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
Extract, Integrate, Compete: Towards Verification Style Reading Comprehension [66.2551168928688]
本稿では,ガオカオの中国語テストから,VGaokaoと命名された新しい検証スタイル読解データセットを提案する。 VGaokaoの課題に対処するため,我々は新しい抽出・抽出・計算手法を提案する。
論文参考訳（メタデータ） (2021-09-11T01:34:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。