論文の概要: Restoration-Guided Kuzushiji Character Recognition Framework under Seal Interference
- arxiv url: http://arxiv.org/abs/2602.19086v1
- Date: Sun, 22 Feb 2026 07:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.473686
- Title: Restoration-Guided Kuzushiji Character Recognition Framework under Seal Interference
- Title(参考訳): シール干渉下における復古指導クズシジ文字認識フレームワーク
- Authors: Rui-Yang Ju, Kohei Yamashita, Hirotaka Kameko, Shinsuke Mori,
- Abstract要約: くずしじ(くずしじ)は、近世日本において最も一般的な書体の一つで、私文・公文書ともに広く用いられた。
近年,クズシジ文字の自動認識手法の開発に焦点が当てられている。
しかし、既存の手法はシール干渉下での認識精度を維持するのに苦労している。
- 参考スコア(独自算出の注目度): 4.045683514325492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kuzushiji was one of the most popular writing styles in pre-modern Japan and was widely used in both personal letters and official documents. However, due to its highly cursive forms and extensive glyph variations, most modern Japanese readers cannot directly interpret Kuzushiji characters. Therefore, recent research has focused on developing automated Kuzushiji character recognition methods, which have achieved satisfactory performance on relatively clean Kuzushiji document images. However, existing methods struggle to maintain recognition accuracy under seal interference (e.g., when seals overlap characters), despite the frequent occurrence of seals in pre-modern Japanese documents. To address this challenge, we propose a three-stage restoration-guided Kuzushiji character recognition (RG-KCR) framework specifically designed to mitigate seal interference. We construct datasets for evaluating Kuzushiji character detection (Stage 1) and classification (Stage 3). Experimental results show that the YOLOv12-medium model achieves a precision of 98.0% and a recall of 93.3% on the constructed test set. We quantitatively evaluate the restoration performance of Stage 2 using PSNR and SSIM. In addition, we conduct an ablation study to demonstrate that Stage 2 improves the Top-1 accuracy of Metom, a Vision Transformer (ViT)-based Kuzushiji classifier employed in Stage 3, from 93.45% to 95.33%. The implementation code of this work is available at https://ruiyangju.github.io/RG-KCR.
- Abstract(参考訳): くずしじ(くずしじ)は、近世日本において最も一般的な書体の一つで、私文・公文書ともに広く用いられた。
しかし、非常にカール的な形態と幅広いグリフのバリエーションのため、現代日本語の読者はクズシジの文字を直接解釈することはできない。
そこで,近年の研究では,比較的クリーンな葛西寺文書画像に対して良好な性能を達成した,自動葛西寺文字認識手法の開発に焦点が当てられている。
しかし, 従来の手法では, 封印が頻発しているにも関わらず, 封印の干渉による認識精度の維持に苦慮している(例えば, 重複文字を封印する場合など)。
この課題に対処するために,封印干渉を緩和するための3段階の修復誘導クズシジ文字認識(RG-KCR)フレームワークを提案する。
クズシジ文字の検出(ステップ1)と分類(ステップ3)を評価するデータセットを構築した。
実験の結果, YOLOv12-mediumモデルでは98.0%の精度と93.3%のリコールが得られた。
PSNRとSSIMを用いてステージ2の復元性能を定量的に評価した。
さらに,第2段階では,第3段階で採用されている視覚変換器(ViT)を用いたクズシジ分類器であるMetomのTop-1精度が93.45%から95.33%に向上することを示した。
この作業の実装コードはhttps://ruiyangju.github.io/RG-KCRで公開されている。
関連論文リスト
- DKDS: A Benchmark Dataset of Degraded Kuzushiji Documents with Seals for Detection and Binarization [4.045683514325492]
近世以前の日本語の筆跡である葛紙字は、現在、日本の数万の熟練した専門家によって読解されている。
現在の光学文字認識技術は、文書の劣化や封印など、様々な種類のノイズを考慮できない。
関連タスクの新たなベンチマークとして,シールスデータセットを用いた分解クズシジ文書を紹介した。
論文 参考訳(メタデータ) (2025-11-12T08:45:22Z) - Perceptual Quality Assessment of 3D Gaussian Splatting: A Subjective Dataset and Prediction Metric [76.66966098297986]
3DGSの主観的品質評価データセットである3DGS-QAを提案する。
15種類の物体に対して225の劣化した復元を行い、共通の歪み要因の制御を可能にした。
本モデルでは,ガウス表現から空間的および測光的手がかりを抽出し,構造的に知覚された品質を推定する。
論文 参考訳(メタデータ) (2025-11-11T09:34:20Z) - Training Kindai OCR with parallel textline images and self-attention feature distance-based loss [0.6767885381740952]
並列画像対の自己意図的特徴間のギャップを最小限に抑えるために,距離に基づく目的関数を導入する。
本手法は,自己認識表現の識別品質を向上し,歴史文書のOCR性能を向上する。
論文 参考訳(メタデータ) (2025-08-12T01:01:32Z) - The \textit{Questio de aqua et terra}: A Computational Authorship Verification Study [49.56191463229252]
本研究は, クエシオの真正性について, 数値的オーサシップ検証(AV)を用いて検討する。
AVシステムのファミリーを構築し、13世紀と14世紀のラテン文字のコーパスを組み立てます。
AVシステムのクエチオへの応用は、その真正性に関する非常に確実な予測を返す。
論文 参考訳(メタデータ) (2025-01-07T18:42:05Z) - MOODv2: Masked Image Modeling for Out-of-Distribution Detection [57.17163962383442]
本研究は,様々なOODスコア関数を用いて,個別の事前学習課題について検討する。
当社のフレームワークMOODv2は,14.30%のAUROCをImageNetで95.68%に向上し,CIFAR-10で99.98%を達成した。
論文 参考訳(メタデータ) (2024-01-05T02:57:58Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Lenient Evaluation of Japanese Speech Recognition: Modeling Naturally
Occurring Spelling Inconsistency [8.888638284299736]
我々は,語彙資源,日本語テキスト処理システム,ニューラルマシン翻訳モデルの組み合わせを用いて,参照転写の可塑性レスペリングの格子を作成する。
提案手法は,単語の有効な代替綴りを選択するシステムにペナルティを課さないため,タスクに応じてCERを2.4%~3.1%削減する。
論文 参考訳(メタデータ) (2023-06-07T15:39:02Z) - Predicting the Ordering of Characters in Japanese Historical Documents [6.82324732276004]
1900年(明治33年)の日本書記制度の変遷により、歴史文書は一般には入手できないものとなった。
キャラクタの逐次順序を予測するタスクに対するいくつかのアプローチについて検討する。
私たちのベストパフォーマンスシステムは98.65%の精度で、データセットの書籍の49%で完璧に正確です。
論文 参考訳(メタデータ) (2021-06-12T14:39:20Z) - Self-supervised Deep Reconstruction of Mixed Strip-shredded Text
Documents [63.41717168981103]
本研究は,従来の1ページ再構成の深層学習手法を,より現実的で複雑なシナリオに拡張する。
本手法では, 整合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。
提案手法は複雑なシナリオにおいて競合する手法よりも優れ、90%以上の精度で精度が向上する。
論文 参考訳(メタデータ) (2020-07-01T21:48:05Z) - Automated Transcription for Pre-Modern Japanese Kuzushiji Documents by
Random Lines Erasure and Curriculum Learning [6.700873164609009]
従来の手法のほとんどは、認識プロセスを文字分割と認識に分割していた。
本稿では,従来の人間に触発された認識システムを複数行からクズシジ文書の全ページに拡張する。
トレーニングデータの欠如に対して,テキスト行をランダムに消去し,文書を歪ませるランダムテキスト行消去手法を提案する。
論文 参考訳(メタデータ) (2020-05-06T09:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。