論文の概要: UDoc-GAN: Unpaired Document Illumination Correction with Background
Light Prior
- arxiv url: http://arxiv.org/abs/2210.08216v1
- Date: Sat, 15 Oct 2022 07:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:00:43.885162
- Title: UDoc-GAN: Unpaired Document Illumination Correction with Background
Light Prior
- Title(参考訳): UDoc-GAN:背景光を優先した未使用の文書イルミネーション補正
- Authors: Yonghui Wang, Wengang Zhou, Zhenbo Lu, Houqiang Li
- Abstract要約: UDoc-GANは、未確認条件下での文書照明補正の問題に対処する最初のフレームワークである。
文書の環境光の特徴をまず予測する。
そして、周囲光のレベルが異なる特性により、サイクルの一貫性の制約を再定式化する。
現状の手法と比較して,文字誤り率 (CER) と編集距離 (ED) の両面で有望な性能を示す。
- 参考スコア(独自算出の注目度): 128.19212716007794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document images captured by mobile devices are usually degraded by
uncontrollable illumination, which hampers the clarity of document content.
Recently, a series of research efforts have been devoted to correcting the
uneven document illumination. However, existing methods rarely consider the use
of ambient light information, and usually rely on paired samples including
degraded and the corrected ground-truth images which are not always accessible.
To this end, we propose UDoc-GAN, the first framework to address the problem of
document illumination correction under the unpaired setting. Specifically, we
first predict the ambient light features of the document. Then, according to
the characteristics of different level of ambient lights, we re-formulate the
cycle consistency constraint to learn the underlying relationship between
normal and abnormal illumination domains. To prove the effectiveness of our
approach, we conduct extensive experiments on DocProj dataset under the
unpaired setting. Compared with the state-of-the-art approaches, our method
demonstrates promising performance in terms of character error rate (CER) and
edit distance (ED), together with better qualitative results for textual detail
preservation. The source code is now publicly available at
https://github.com/harrytea/UDoc-GAN.
- Abstract(参考訳): モバイルデバイスによってキャプチャされた文書画像は、通常、制御不能な照明によって劣化する。
近年,不均一な文書照明の修正に多くの研究努力が注がれている。
しかし、既存の手法では環境光情報の利用をほとんど考慮せず、通常は劣化や補正された地中画像を含む対のサンプルに頼るが、必ずしもアクセスできない。
そこで本稿では,未確認条件下での文書照明補正問題に対処する最初のフレームワークであるUDoc-GANを提案する。
具体的には、まず文書の環境光の特徴を予測する。
そこで, 環境光のレベルの違いにより, サイクル一貫性制約を再定式化し, 通常の照明領域と異常照明領域の関係を学習する。
提案手法の有効性を証明するため,未確認条件下でDocProjデータセットの広範な実験を行った。
現状の手法と比較して,文字誤り率(CER)と編集距離(ED)の両面で有望な性能を示すとともに,テキスト詳細保存のための質的結果も向上する。
ソースコードはhttps://github.com/harrytea/UDoc-GANで公開されている。
関連論文リスト
- Towards Image Ambient Lighting Normalization [47.42834070783831]
環境照明正規化(ALN)は、より広い文脈で影間の相互作用を研究し、画像復元と影除去を統一する。
ベンチマークでは、様々な主流手法を選択し、Ambient6K上でそれらを厳格に評価する。
IFBlendは、Ambient6K上でSOTAスコアを達成し、従来のシャドウ除去ベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2024-03-27T16:20:55Z) - Learning Real-World Image De-Weathering with Imperfect Supervision [57.748585821252824]
既存の現実世界のデヒータリングデータセットは、接地トラス画像と入力された劣化画像の間に、一貫性のない照明、位置、テクスチャを示すことが多い。
我々は、入力劣化画像と可能な限り一貫性のある擬似ラベルを生成するための一貫性ラベルコンストラクタ(CLC)を開発した。
我々は,従来の不完全ラベルと擬似ラベルを組み合わせることで,情報割当戦略による脱ウェザリングモデルを共同で監督する。
論文 参考訳(メタデータ) (2023-10-23T14:02:57Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Designing An Illumination-Aware Network for Deep Image Relighting [69.750906769976]
本稿では、階層的なサンプリングから1つの画像からシーンを段階的にリライトするためのガイダンスに従うイルミネーション・アウェア・ネットワーク(IAN)を提案する。
さらに、物理レンダリングプロセスの近似として、イルミネーション・アウェア・残留ブロック(IARB)が設計されている。
実験の結果,提案手法は従来の最先端手法よりも定量的,定性的な照準結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-07-21T16:21:24Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Auto White-Balance Correction for Mixed-Illuminant Scenes [52.641704254001844]
オートホワイトバランス(AWB)は、シーン照明によるカラーキャストを取り除くためにカメラハードウェアによって適用される。
本稿では,この混合照明シーンに有効なAWB手法を提案する。
本手法は従来のカメラAWBモジュールと同様,照度推定を必要としない。
論文 参考訳(メタデータ) (2021-09-17T20:13:31Z) - Intrinsic Decomposition of Document Images In-the-Wild [28.677728405031782]
本稿では,本質的な画像形成に基づく文書反射率を直接推定する学習手法を提案する。
提案アーキテクチャは, 合成テクスチャのみを弱い訓練信号として用いる自己教師型方式で機能する。
OCRパイプラインの前処理ステップとして使用する反射率推定方式は,文字誤り率を26%向上させる。
論文 参考訳(メタデータ) (2020-11-29T21:39:58Z) - Approach for Document Detection by Contours and Contrasts [0.0]
本稿では,モバイル端末上で行う任意の文書検出について考察する。
本研究では,輪郭法を改良し,競合する輪郭位置仮説を境界内と外とのコントラストに応じてランク付けする。
提案手法は,オープンなMIDV-500データセット上での未適合な最先端性能を提供し,SmartDocデータセットの最先端パフォーマンスに匹敵する結果を実証する。
論文 参考訳(メタデータ) (2020-08-06T12:44:40Z) - Can You Read Me Now? Content Aware Rectification using Angle Supervision [14.095728009592763]
本稿では,文書の修正を初めて学習したアングル・スーパービジョンを用いたコンテンツアウェア・リクティフィケーションについて述べる。
提案手法は,OCRの精度,幾何学的誤差,視覚的類似性の観点から,従来の手法を超越した手法である。
論文 参考訳(メタデータ) (2020-08-05T16:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。