論文の概要: DKDS: A Benchmark Dataset of Degraded Kuzushiji Documents with Seals for Detection and Binarization
- arxiv url: http://arxiv.org/abs/2511.09117v1
- Date: Thu, 13 Nov 2025 01:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.416242
- Title: DKDS: A Benchmark Dataset of Degraded Kuzushiji Documents with Seals for Detection and Binarization
- Title(参考訳): DKDS: 検出とバイナリ化のためのシール付き劣化クズシジ文書のベンチマークデータセット
- Authors: Rui-Yang Ju, Kohei Yamashita, Hirotaka Kameko, Shinsuke Mori,
- Abstract要約: 近世以前の日本語の筆跡である葛紙字は、現在、日本の数万の熟練した専門家によって読解されている。
現在の光学文字認識技術は、文書の劣化や封印など、様々な種類のノイズを考慮できない。
関連タスクの新たなベンチマークとして,シールスデータセットを用いた分解クズシジ文書を紹介した。
- 参考スコア(独自算出の注目度): 4.045683514325492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kuzushiji, a pre-modern Japanese cursive script, can currently be read and understood by only a few thousand trained experts in Japan. With the rapid development of deep learning, researchers have begun applying Optical Character Recognition (OCR) techniques to transcribe Kuzushiji into modern Japanese. Although existing OCR methods perform well on clean pre-modern Japanese documents written in Kuzushiji, they often fail to consider various types of noise, such as document degradation and seals, which significantly affect recognition accuracy. To the best of our knowledge, no existing dataset specifically addresses these challenges. To address this gap, we introduce the Degraded Kuzushiji Documents with Seals (DKDS) dataset as a new benchmark for related tasks. We describe the dataset construction process, which required the assistance of a trained Kuzushiji expert, and define two benchmark tracks: (1) text and seal detection and (2) document binarization. For the text and seal detection track, we provide baseline results using multiple versions of the You Only Look Once (YOLO) models for detecting Kuzushiji characters and seals. For the document binarization track, we present baseline results from traditional binarization algorithms, traditional algorithms combined with K-means clustering, and Generative Adversarial Network (GAN)-based methods. The DKDS dataset and the implementation code for baseline methods are available at https://ruiyangju.github.io/DKDS.
- Abstract(参考訳): 近世以前の日本語の筆跡である葛紙字は、現在、日本の数万の熟練した専門家によって読解されている。
深層学習の急速な発展に伴い、研究者らはクズシジを現代日本語に書き起こすために光学文字認識(OCR)技術を適用し始めた。
既存のOCR法は、クズシジで書かれた清潔な日本の文書ではよく機能するが、文書の劣化や封印など様々な種類のノイズを考慮せず、認識精度に大きな影響を及ぼすことが多い。
私たちの知る限りでは、これらの課題に対処する既存のデータセットはありません。
このギャップに対処するため、我々は、関連するタスクの新たなベンチマークとして、DKDSデータセットを用いた分解クズシジ文書(Degraded Kuzushiji Documents with Seals)を紹介した。
筆者らは,(1)テキストとシール検出,(2)文書のバイナライゼーションの2つのベンチマークトラックを定義した。
テキストとアザラシ検出トラックでは、クズシジ文字とアザラシを検出するために、You Only Look Once(YOLO)モデルの複数バージョンを用いてベースライン結果を提供する。
文書バイナライゼーショントラックでは、従来のバイナライゼーションアルゴリズム、K平均クラスタリングと組み合わせた従来のアルゴリズム、GAN(Generative Adversarial Network)ベースの手法のベースライン結果を示す。
DKDSデータセットとベースラインメソッドの実装コードはhttps://ruiyangju.github.io/DKDSで公開されている。
関連論文リスト
- KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative Documents [0.0]
雑音の多いOCR出力を検索最適化テキストに変換する新しいフレームワークであるKAPを提案する。
KAPは2段階のアプローチを採用しており、まずOCRを用いてテキストを抽出し、次にマルチモーダル大言語モデルを用いて出力を洗練する。
実証的な結果は、KAPが従来の前処理手法よりも一貫して、著しく優れていることを示している。
論文 参考訳(メタデータ) (2025-03-11T14:01:03Z) - Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Extract, Integrate, Compete: Towards Verification Style Reading
Comprehension [66.2551168928688]
本稿では,ガオカオの中国語テストから,VGaokaoと命名された新しい検証スタイル読解データセットを提案する。
VGaokaoの課題に対処するため,我々は新しい抽出・抽出・計算手法を提案する。
論文 参考訳(メタデータ) (2021-09-11T01:34:59Z) - HCR-Net: A deep learning based script independent handwritten character
recognition network [5.8067395321424975]
手書き文字認識(HCR)は、数十年の研究にもかかわらず、困難なパターン認識問題である。
我々は、HCR研究のためのスクリプト独立型ディープラーニングネットワーク、HCR-Netを提案し、この分野の新たな研究方向性を定めている。
論文 参考訳(メタデータ) (2021-08-15T05:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。