論文の概要: Training Kindai OCR with parallel textline images and self-attention feature distance-based loss
- arxiv url: http://arxiv.org/abs/2508.08537v1
- Date: Tue, 12 Aug 2025 01:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.259872
- Title: Training Kindai OCR with parallel textline images and self-attention feature distance-based loss
- Title(参考訳): 平行テキストライン画像と自己注意特徴量に基づく距離ベース損失を用いた金台OCRの訓練
- Authors: Anh Le, Asanobu Kitamoto,
- Abstract要約: 並列画像対の自己意図的特徴間のギャップを最小限に抑えるために,距離に基づく目的関数を導入する。
本手法は,自己認識表現の識別品質を向上し,歴史文書のOCR性能を向上する。
- 参考スコア(独自算出の注目度): 0.6767885381740952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Kindai documents, written in modern Japanese from the late 19th to early 20th century, hold significant historical value for researchers studying societal structures, daily life, and environmental conditions of that period. However, transcribing these documents remains a labor-intensive and time-consuming task, resulting in limited annotated data for training optical character recognition (OCR) systems. This research addresses this challenge of data scarcity by leveraging parallel textline images - pairs of original Kindai text and their counterparts in contemporary Japanese fonts - to augment training datasets. We introduce a distance-based objective function that minimizes the gap between self-attention features of the parallel image pairs. Specifically, we explore Euclidean distance and Maximum Mean Discrepancy (MMD) as domain adaptation metrics. Experimental results demonstrate that our method reduces the character error rate (CER) by 2.23% and 3.94% over a Transformer-based OCR baseline when using Euclidean distance and MMD, respectively. Furthermore, our approach improves the discriminative quality of self-attention representations, leading to more effective OCR performance for historical documents.
- Abstract(参考訳): 19世紀後半から20世紀初頭にかけて現代日本語で書かれた近世文書は、その時代の社会構造、日常生活、環境条件を研究する研究者にとって重要な歴史的価値を持っている。
しかし、これらの文書を転写することは労働集約的かつ時間を要する作業であり、結果として光学文字認識(OCR)システムのトレーニングのための限られた注釈付きデータが得られる。
本研究は, 並列テキストラインイメージ(原文の対と現代日本語のフォントの対)を活用して, 学習データセットを増強することによる, データの不足という課題に対処する。
並列画像対の自己意図的特徴間のギャップを最小限に抑えるために,距離に基づく目的関数を導入する。
具体的には、ユークリッド距離と最大平均離散性(MMD)をドメイン適応指標として検討する。
実験の結果, ユークリッド距離とMDを用いた場合, トランスフォーマーベースOCRベースラインの文字誤り率(CER)を2.23%, 3.94%削減できることがわかった。
さらに,本手法により自己認識表現の識別精度が向上し,歴史文書のOCR性能が向上する。
関連論文リスト
- Reproducibility, Replicability, and Insights into Visual Document Retrieval with Late Interaction [22.41501622100226]
Visual Document Retrieval (VDR)は、文書イメージを直接エンコードして検索することに焦点を当てた、新たな研究分野である。
近年のVDRの進歩はColPaliによって導入され、遅延相互作用機構による検索効率を大幅に改善した。
本研究は,視覚的文書検索の文脈におけるクエリ・パッチマッチングに着目して,遅延インタラクションの具体的な貢献について検討する。
論文 参考訳(メタデータ) (2025-05-12T16:37:47Z) - Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的文脈を提供する価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Auxiliary Cross-Modal Representation Learning with Triplet Loss
Functions for Online Handwriting Recognition [3.071136270246468]
クロスモーダル表現学習は、与えられたタスクのパフォーマンスを改善するために、2つ以上のモダリティ間の共有埋め込みを学ぶ。
シングルラベルとシークエンス・ツー・シーケンスの分類タスクに対して,ダイナミック・マージンを持つトリプルト・ロスを示す。
提案実験は, 分類精度の向上, 収束の高速化, クロスモーダル表現の改善による一般化性の向上を示す。
論文 参考訳(メタデータ) (2022-02-16T07:09:04Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。