論文の概要: Single Document Image Highlight Removal via A Large-Scale Real-World Dataset and A Location-Aware Network
- arxiv url: http://arxiv.org/abs/2504.14238v1
- Date: Sat, 19 Apr 2025 09:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 03:55:53.919394
- Title: Single Document Image Highlight Removal via A Large-Scale Real-World Dataset and A Location-Aware Network
- Title(参考訳): 大規模実世界データセットと位置認識ネットワークによる単一文書画像のハイライト除去
- Authors: Lu Pan, Yu-Hsuan Huang, Hongxia Xie, Cheng Zhang, Hongwei Zhao, Hong-Han Shuai, Wen-Huang Cheng,
- Abstract要約: DocHR14Kは6つの文書カテゴリにわたる14,902の高解像度画像対と様々な照明条件からなる大規模実世界のデータセットである。
我々の知る限りでは、これは文書ハイライト除去のための最初の高解像度データセットであり、様々な現実世界の照明条件を捉えている。
また,L2HRNet(Location-Aware Laplacian Pyramid Highlight removal Network)を提案する。
- 参考スコア(独自算出の注目度): 34.62343001179942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reflective documents often suffer from specular highlights under ambient lighting, severely hindering text readability and degrading overall visual quality. Although recent deep learning methods show promise in highlight removal, they remain suboptimal for document images, primarily due to the lack of dedicated datasets and tailored architectural designs. To tackle these challenges, we present DocHR14K, a large-scale real-world dataset comprising 14,902 high-resolution image pairs across six document categories and various lighting conditions. To the best of our knowledge, this is the first high-resolution dataset for document highlight removal that captures a wide range of real-world lighting conditions. Additionally, motivated by the observation that the residual map between highlighted and clean images naturally reveals the spatial structure of highlight regions, we propose a simple yet effective Highlight Location Prior (HLP) to estimate highlight masks without human annotations. Building on this prior, we present the Location-Aware Laplacian Pyramid Highlight Removal Network (L2HRNet), which effectively removes highlights by leveraging estimated priors and incorporates diffusion module to restore details. Extensive experiments demonstrate that DocHR14K improves highlight removal under diverse lighting conditions. Our L2HRNet achieves state-of-the-art performance across three benchmark datasets, including a 5.01\% increase in PSNR and a 13.17\% reduction in RMSE on DocHR14K.
- Abstract(参考訳): 反射文書は、周囲の照明下での特異なハイライトに悩まされ、テキストの可読性を著しく妨げ、全体的な視覚的品質を低下させる。
最近のディープラーニング手法ではハイライトの削除が約束されているが、主に専用のデータセットやアーキテクチャ設計が不足しているため、ドキュメントイメージに最適ではない。
これらの課題に対処するため、DocHR14Kは、6つの文書カテゴリにわたる14,902の高解像度画像ペアと様々な照明条件からなる大規模な実世界のデータセットである。
我々の知る限りでは、これは文書ハイライト除去のための最初の高解像度データセットであり、様々な現実世界の照明条件を捉えている。
また、ハイライト画像とクリーン画像の間の残像が自然にハイライト領域の空間構造を明らかにするという観察の動機から、人間のアノテーションを使わずにハイライトマスクを推定するための簡易で効果的なハイライト位置優先(HLP)を提案する。
これに基づいて,推定先行情報を利用してハイライトを効果的に除去し,拡散モジュールを組み込んで詳細を復元するLocation-Aware Laplacian Pyramid Highlight removal Network (L2HRNet)を提案する。
大規模な実験により、DocHR14Kは様々な照明条件下でハイライト除去を改善することが示されている。
私たちのL2HRNetは、PSNRの5.01\%増加やDocHR14K上のRMSEの13.17\%削減など、3つのベンチマークデータセットで最先端のパフォーマンスを実現しています。
関連論文リスト
- IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文 参考訳(メタデータ) (2024-12-16T18:52:56Z) - CodeEnhance: A Codebook-Driven Approach for Low-Light Image Enhancement [97.95330185793358]
低照度画像強調(LLIE)は、低照度画像を改善することを目的としている。
既存の手法では、様々な明るさ劣化からの回復の不確実性と、テクスチャと色情報の喪失という2つの課題に直面している。
我々は、量子化された先行値と画像の精細化を利用して、新しいエンハンスメント手法、CodeEnhanceを提案する。
論文 参考訳(メタデータ) (2024-04-08T07:34:39Z) - Towards High-Quality Specular Highlight Removal by Leveraging
Large-Scale Synthetic Data [45.30068102110486]
本稿では,1つのオブジェクトレベルの画像から特異なハイライトを取り除くことを目的とする。
そこで本研究では,これらに対処するための3段階ネットワークを提案する。
オブジェクトレベルの画像の大規模な合成データセットを提案する。
論文 参考訳(メタデータ) (2023-09-12T15:10:23Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Factored-NeuS: Reconstructing Surfaces, Illumination, and Materials of Possibly Glossy Objects [58.25772313290338]
提案する多視点画像からシーンの表面, 材料, 照明を復元する手法を開発した。
追加のデータは必要ないし、光沢のあるオブジェクトや明るい照明も扱える。
論文 参考訳(メタデータ) (2023-05-29T07:44:19Z) - Multi-view Inverse Rendering for Large-scale Real-world Indoor Scenes [5.9870673031762545]
本研究では,大規模屋内シーンを対象とした多視点逆レンダリング手法を提案する。
提案手法は, 最先端の定量的, 定性的に性能を向上する。
物質編集、編集可能な新規ビュー合成、リライトなど、物理的に理にかなった混合現実のアプリケーションを可能にする。
論文 参考訳(メタデータ) (2022-11-18T12:53:10Z) - Unsupervised Low-Light Image Enhancement via Histogram Equalization
Prior [40.61944814314655]
HEP (Equalization prior) と呼ばれる実効的事前ヒストグラムに基づく教師なし低照度画像強調手法を提案する。
反射率マップのノイズと内容を、未確認クリーンな画像の信頼性のある助けを借りてアンタングルするノイズ・ディアンタングメント・モジュール(NDM)を導入する。
本手法は、最先端の教師なし低照度化アルゴリズムに対して好適に動作し、最先端の教師付きアルゴリズムに適合する。
論文 参考訳(メタデータ) (2021-12-03T07:51:08Z) - Degrade is Upgrade: Learning Degradation for Low-light Image Enhancement [52.49231695707198]
2段階の工程で細部と色を精錬しながら、内在的な劣化と低照度画像を照らし出す。
カラー画像の定式化に触発されて,まず低照度入力からの劣化を推定し,環境照明色の歪みをシミュレーションし,そのコンテンツを精錬して拡散照明色の損失を回復した。
LOL1000データセットではPSNRで0.95dB、ExDarkデータセットでは3.18%のmAPでSOTAを上回った。
論文 参考訳(メタデータ) (2021-03-19T04:00:27Z) - Intrinsic Decomposition of Document Images In-the-Wild [28.677728405031782]
本稿では,本質的な画像形成に基づく文書反射率を直接推定する学習手法を提案する。
提案アーキテクチャは, 合成テクスチャのみを弱い訓練信号として用いる自己教師型方式で機能する。
OCRパイプラインの前処理ステップとして使用する反射率推定方式は,文字誤り率を26%向上させる。
論文 参考訳(メタデータ) (2020-11-29T21:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。