論文の概要: Predicting the Original Appearance of Damaged Historical Documents
- arxiv url: http://arxiv.org/abs/2412.11634v1
- Date: Mon, 16 Dec 2024 10:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:54.107851
- Title: Predicting the Original Appearance of Damaged Historical Documents
- Title(参考訳): 被害史料の原形予測
- Authors: Zhenhua Yang, Dezhi Peng, Yongxin Shi, Yuyi Zhang, Chongyu Liu, Lianwen Jin,
- Abstract要約: 歴史資料には多くの文化財が含まれているが、文字の欠如、紙の損傷、インク浸食などの深刻な被害に悩まされている。
既存の文書処理方法は、主にバイナライゼーション、強化等に重点を置いており、これらの損傷の修復を怠っている。
我々は,損傷した史料の本来の出現を予測することを目的とした,歴史文書修復という新たな課題を提示する。
- 参考スコア(独自算出の注目度): 34.86809131375189
- License:
- Abstract: Historical documents encompass a wealth of cultural treasures but suffer from severe damages including character missing, paper damage, and ink erosion over time. However, existing document processing methods primarily focus on binarization, enhancement, etc., neglecting the repair of these damages. To this end, we present a new task, termed Historical Document Repair (HDR), which aims to predict the original appearance of damaged historical documents. To fill the gap in this field, we propose a large-scale dataset HDR28K and a diffusion-based network DiffHDR for historical document repair. Specifically, HDR28K contains 28,552 damaged-repaired image pairs with character-level annotations and multi-style degradations. Moreover, DiffHDR augments the vanilla diffusion framework with semantic and spatial information and a meticulously designed character perceptual loss for contextual and visual coherence. Experimental results demonstrate that the proposed DiffHDR trained using HDR28K significantly surpasses existing approaches and exhibits remarkable performance in handling real damaged documents. Notably, DiffHDR can also be extended to document editing and text block generation, showcasing its high flexibility and generalization capacity. We believe this study could pioneer a new direction of document processing and contribute to the inheritance of invaluable cultures and civilizations. The dataset and code is available at https://github.com/yeungchenwa/HDR.
- Abstract(参考訳): 歴史資料には多くの文化財が含まれているが、文字の欠如、紙の損傷、インク浸食などの深刻な被害に悩まされている。
しかし、既存の文書処理方法は、主に二項化、強化等に重点を置いており、これらの損傷の修復を怠っている。
この目的のために,損傷した史料の本来の出現を予測するために,歴史文書修復(HDR)と呼ばれる新しい課題を提案する。
この領域のギャップを埋めるために,大規模なデータセットHDR28Kと拡散型ネットワークDiffHDRを提案する。
具体的には、HDR28Kは28,552個の損傷を受けた画像対と、文字レベルのアノテーションとマルチスタイルの劣化を含む。
さらに、DiffHDRは、意味情報と空間情報でバニラ拡散フレームワークを強化し、文脈的・視覚的コヒーレンスのための微妙に設計された文字知覚損失を増大させる。
実験結果から,HDR28Kを用いて訓練したDiffHDRは既存の手法をはるかに上回り,実際に破損した文書を扱う上での顕著な性能を示した。
特に、DiffHDRは文書編集やテキストブロック生成にも拡張でき、高い柔軟性と一般化能力を示している。
この研究は、文書処理の新しい方向性を開拓し、貴重な文化や文明の継承に寄与する可能性があると信じている。
データセットとコードはhttps://github.com/yeungchenwa/HDRで公開されている。
関連論文リスト
- A Cycle Ride to HDR: Semantics Aware Self-Supervised Framework for Unpaired LDR-to-HDR Image Translation [0.0]
低ダイナミックレンジ(LDR)から高ダイナミックレンジ(High Dynamic Range)への画像変換は重要なコンピュータビジョン問題である。
現在の最先端の手法のほとんどは、モデルトレーニングのための高品質なペアLDR、データセットを必要とする。
本稿では,改良型サイクル整合対向アーキテクチャを提案し,未ペアのLDR,データセットをトレーニングに利用した。
論文 参考訳(メタデータ) (2024-10-19T11:11:58Z) - Coloring the Past: Neural Historical Buildings Reconstruction from
Archival Photography [69.93897305312574]
本稿では, ボリュームレンダリング技術を用いて, 歴史的建造物の形状を復元する手法を提案する。
我々は,高密度点雲を幾何学的先行として利用し,カラー画像に制限のある建物の色を復元するために,色相の埋め込み損失を導入する。
論文 参考訳(メタデータ) (2023-11-29T16:59:45Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - ArtHDR-Net: Perceptually Realistic and Accurate HDR Content Creation [12.45632443397018]
単一露光または多露光LDRを入力した低ダイナミックレンジ(LDR)画像/ビデオのHDR対応を再現する多くの手法が提案されている。
これらのアプローチは、人間の視覚的知覚の観点から、画像の芸術的意図を保存することに重点を置いていない。
マルチ露光LDRを入力として使用するArt-Netアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-09-07T16:40:49Z) - HQ-50K: A Large-scale, High-quality Dataset for Image Restoration [105.22191357934398]
HQ-50Kには5万の高品質の画像があり、テクスチャの詳細とセマンティックな多様性がある。
既存の画像復元データセットを5つの異なる視点から分析する。
HQ-50Kは、データキュレーションプロセスでこれら5つの側面をすべて考慮し、すべての要件を満たす。
論文 参考訳(メタデータ) (2023-06-08T17:44:21Z) - DocDiff: Document Enhancement via Residual Diffusion Models [7.972081359533047]
文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
論文 参考訳(メタデータ) (2023-05-06T01:41:10Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - HDR-GAN: HDR Image Reconstruction from Multi-Exposed LDR Images with
Large Motions [62.44802076971331]
マルチ露光LDR画像からHDR画像を合成するための新しいGANモデルHDR-GANを提案する。
本手法は,敵対学習を取り入れることで,欠落したコンテンツのある領域に忠実な情報を生成することができる。
論文 参考訳(メタデータ) (2020-07-03T11:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。