論文の概要: DKDS: A Benchmark Dataset of Degraded Kuzushiji Documents with Seals for Detection and Binarization
- arxiv url: http://arxiv.org/abs/2511.09117v1
- Date: Thu, 13 Nov 2025 01:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.416242
- Title: DKDS: A Benchmark Dataset of Degraded Kuzushiji Documents with Seals for Detection and Binarization
- Title(参考訳): DKDS: 検出とバイナリ化のためのシール付き劣化クズシジ文書のベンチマークデータセット
- Authors: Rui-Yang Ju, Kohei Yamashita, Hirotaka Kameko, Shinsuke Mori,
- Abstract要約: 近世以前の日本語の筆跡である葛紙字は、現在、日本の数万の熟練した専門家によって読解されている。
現在の光学文字認識技術は、文書の劣化や封印など、様々な種類のノイズを考慮できない。
関連タスクの新たなベンチマークとして,シールスデータセットを用いた分解クズシジ文書を紹介した。
- 参考スコア(独自算出の注目度): 4.045683514325492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kuzushiji, a pre-modern Japanese cursive script, can currently be read and understood by only a few thousand trained experts in Japan. With the rapid development of deep learning, researchers have begun applying Optical Character Recognition (OCR) techniques to transcribe Kuzushiji into modern Japanese. Although existing OCR methods perform well on clean pre-modern Japanese documents written in Kuzushiji, they often fail to consider various types of noise, such as document degradation and seals, which significantly affect recognition accuracy. To the best of our knowledge, no existing dataset specifically addresses these challenges. To address this gap, we introduce the Degraded Kuzushiji Documents with Seals (DKDS) dataset as a new benchmark for related tasks. We describe the dataset construction process, which required the assistance of a trained Kuzushiji expert, and define two benchmark tracks: (1) text and seal detection and (2) document binarization. For the text and seal detection track, we provide baseline results using multiple versions of the You Only Look Once (YOLO) models for detecting Kuzushiji characters and seals. For the document binarization track, we present baseline results from traditional binarization algorithms, traditional algorithms combined with K-means clustering, and Generative Adversarial Network (GAN)-based methods. The DKDS dataset and the implementation code for baseline methods are available at https://ruiyangju.github.io/DKDS.
- Abstract(参考訳): 近世以前の日本語の筆跡である葛紙字は、現在、日本の数万の熟練した専門家によって読解されている。
深層学習の急速な発展に伴い、研究者らはクズシジを現代日本語に書き起こすために光学文字認識(OCR)技術を適用し始めた。
既存のOCR法は、クズシジで書かれた清潔な日本の文書ではよく機能するが、文書の劣化や封印など様々な種類のノイズを考慮せず、認識精度に大きな影響を及ぼすことが多い。
私たちの知る限りでは、これらの課題に対処する既存のデータセットはありません。
このギャップに対処するため、我々は、関連するタスクの新たなベンチマークとして、DKDSデータセットを用いた分解クズシジ文書(Degraded Kuzushiji Documents with Seals)を紹介した。
筆者らは,(1)テキストとシール検出,(2)文書のバイナライゼーションの2つのベンチマークトラックを定義した。
テキストとアザラシ検出トラックでは、クズシジ文字とアザラシを検出するために、You Only Look Once(YOLO)モデルの複数バージョンを用いてベースライン結果を提供する。
文書バイナライゼーショントラックでは、従来のバイナライゼーションアルゴリズム、K平均クラスタリングと組み合わせた従来のアルゴリズム、GAN(Generative Adversarial Network)ベースの手法のベースライン結果を示す。
DKDSデータセットとベースラインメソッドの実装コードはhttps://ruiyangju.github.io/DKDSで公開されている。
関連論文リスト
- Restoration-Guided Kuzushiji Character Recognition Framework under Seal Interference [4.045683514325492]
くずしじ(くずしじ)は、近世日本において最も一般的な書体の一つで、私文・公文書ともに広く用いられた。
近年,クズシジ文字の自動認識手法の開発に焦点が当てられている。
しかし、既存の手法はシール干渉下での認識精度を維持するのに苦労している。
論文 参考訳(メタデータ) (2026-02-22T07:58:29Z) - Digitizing Nepal's Written Heritage: A Comprehensive HTR Pipeline for Old Nepali Manuscripts [0.3899824115379246]
本稿では,ネパール語における手書き文字認識のための最初のエンドツーエンドパイプラインを提案する。
我々は行レベルの転写手法を採用し、認識精度を向上させるためにエンコーダ・デコーダアーキテクチャとデータ中心の手法を体系的に探索する。
論文 参考訳(メタデータ) (2025-12-18T22:43:15Z) - A Survey on Deep Text Hashing: Efficient Semantic Text Retrieval with Binary Representation [69.50397417361351]
テキストハッシュはオリジナルのテキストをコンパクトなバイナリハッシュコードに投影する。
ディープテキストハッシュは、従来のデータに依存しないハッシュ技術よりも大きなアドバンテージを示している。
本調査では, コアコンポーネントに基づいて分類することで, 現在の深層テキストハッシュ法について検討する。
論文 参考訳(メタデータ) (2025-10-31T06:51:37Z) - KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative Documents [0.0]
雑音の多いOCR出力を検索最適化テキストに変換する新しいフレームワークであるKAPを提案する。
KAPは2段階のアプローチを採用しており、まずOCRを用いてテキストを抽出し、次にマルチモーダル大言語モデルを用いて出力を洗練する。
実証的な結果は、KAPが従来の前処理手法よりも一貫して、著しく優れていることを示している。
論文 参考訳(メタデータ) (2025-03-11T14:01:03Z) - Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Extract, Integrate, Compete: Towards Verification Style Reading
Comprehension [66.2551168928688]
本稿では,ガオカオの中国語テストから,VGaokaoと命名された新しい検証スタイル読解データセットを提案する。
VGaokaoの課題に対処するため,我々は新しい抽出・抽出・計算手法を提案する。
論文 参考訳(メタデータ) (2021-09-11T01:34:59Z) - HCR-Net: A deep learning based script independent handwritten character
recognition network [5.8067395321424975]
手書き文字認識(HCR)は、数十年の研究にもかかわらず、困難なパターン認識問題である。
我々は、HCR研究のためのスクリプト独立型ディープラーニングネットワーク、HCR-Netを提案し、この分野の新たな研究方向性を定めている。
論文 参考訳(メタデータ) (2021-08-15T05:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。