論文の概要: Intrinsic Decomposition of Document Images In-the-Wild
- arxiv url: http://arxiv.org/abs/2011.14447v1
- Date: Sun, 29 Nov 2020 21:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 09:01:33.018133
- Title: Intrinsic Decomposition of Document Images In-the-Wild
- Title(参考訳): 文書画像の内在的分解
- Authors: Sagnik Das, Hassan Ahmed Sial, Ke Ma, Ramon Baldrich, Maria Vanrell,
Dimitris Samaras
- Abstract要約: 本稿では,本質的な画像形成に基づく文書反射率を直接推定する学習手法を提案する。
提案アーキテクチャは, 合成テクスチャのみを弱い訓練信号として用いる自己教師型方式で機能する。
OCRパイプラインの前処理ステップとして使用する反射率推定方式は,文字誤り率を26%向上させる。
- 参考スコア(独自算出の注目度): 28.677728405031782
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic document content processing is affected by artifacts caused by the
shape of the paper, non-uniform and diverse color of lighting conditions.
Fully-supervised methods on real data are impossible due to the large amount of
data needed. Hence, the current state of the art deep learning models are
trained on fully or partially synthetic images. However, document shadow or
shading removal results still suffer because: (a) prior methods rely on
uniformity of local color statistics, which limit their application on
real-scenarios with complex document shapes and textures and; (b) synthetic or
hybrid datasets with non-realistic, simulated lighting conditions are used to
train the models. In this paper we tackle these problems with our two main
contributions. First, a physically constrained learning-based method that
directly estimates document reflectance based on intrinsic image formation
which generalizes to challenging illumination conditions. Second, a new dataset
that clearly improves previous synthetic ones, by adding a large range of
realistic shading and diverse multi-illuminant conditions, uniquely customized
to deal with documents in-the-wild. The proposed architecture works in a
self-supervised manner where only the synthetic texture is used as a weak
training signal (obviating the need for very costly ground truth with
disentangled versions of shading and reflectance). The proposed approach leads
to a significant generalization of document reflectance estimation in real
scenes with challenging illumination. We extensively evaluate on the real
benchmark datasets available for intrinsic image decomposition and document
shadow removal tasks. Our reflectance estimation scheme, when used as a
pre-processing step of an OCR pipeline, shows a 26% improvement of character
error rate (CER), thus, proving the practical applicability.
- Abstract(参考訳): 自動文書コンテンツ処理は、紙の形状、不均一で多様な照明条件によって引き起こされるアーティファクトに影響される。
実データ上の完全な教師付きメソッドは、大量のデータを必要とするため不可能である。
したがって、アートディープラーニングモデルの現状は、完全にあるいは部分的に合成された画像で訓練される。
しかし、文書陰影やシェーディング除去の結果は、 (a) 従来の手法は局所的な色統計の均一性に依存しており、これは、複雑な文書形状とテクスチャを持つ実シナリオへの適用を制限するものであり、 (b) 非現実的でシミュレートされた照明条件を持つ合成またはハイブリッドデータセットは、モデルを訓練するために使用される。
本稿では,これらの課題を2つの大きな貢献で解決する。
第1に,本質的画像形成に基づく文書反射率を直接推定し,照明条件の課題に一般化する,物理的制約のある学習に基づく手法である。
第2に、さまざまな現実的なシェーディングと多様な多照度条件を追加して、従来の合成データを明確に改善する新しいデータセット。
提案アーキテクチャは, 合成テクスチャのみを弱い訓練信号として使用する自己教師型方式で機能する(シェーディングと反射の非絡み合いバージョンによる, 非常にコストのかかる真実の必要性を回避)。
提案手法は,現実のシーンにおける文書反射率推定の顕著な一般化につながる。
本研究は,本質的な画像分解および文書陰影除去作業に利用可能な実ベンチマークデータセットを広範囲に評価する。
ocrパイプラインの前処理ステップとして使用する際の反射率推定手法では,文字誤り率(cer)が26%向上し,実用性が実証された。
関連論文リスト
- IntrinsicAnything: Learning Diffusion Priors for Inverse Rendering Under Unknown Illumination [37.96484120807323]
本稿では,未知の静止照明条件下で撮影されたポーズ画像から対象物質を回収することを目的とする。
我々は、最適化プロセスの正規化のための生成モデルを用いて、その材料を事前に学習する。
実世界および合成データセットを用いた実験により,本手法が材料回収における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-04-17T17:45:08Z) - Face Inverse Rendering via Hierarchical Decoupling [19.530753479268384]
以前の顔の逆レンダリング法は、しばしば地上の真実と/または照明ステージのような専門的な装置の合成データを必要とする。
本研究では,野生の顔画像から対応するアルベド,ノーマル,照明成分を分離する深層学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-17T07:24:47Z) - TexPose: Neural Texture Learning for Self-Supervised 6D Object Pose
Estimation [55.94900327396771]
合成データから6次元オブジェクトポーズ推定のためのニューラルネットワークによるテクスチャ学習を提案する。
実画像からオブジェクトの現実的なテクスチャを予測することを学ぶ。
画素完全合成データからポーズ推定を学習する。
論文 参考訳(メタデータ) (2022-12-25T13:36:32Z) - UDoc-GAN: Unpaired Document Illumination Correction with Background
Light Prior [128.19212716007794]
UDoc-GANは、未確認条件下での文書照明補正の問題に対処する最初のフレームワークである。
文書の環境光の特徴をまず予測する。
そして、周囲光のレベルが異なる特性により、サイクルの一貫性の制約を再定式化する。
現状の手法と比較して,文字誤り率 (CER) と編集距離 (ED) の両面で有望な性能を示す。
論文 参考訳(メタデータ) (2022-10-15T07:19:23Z) - Neural Radiance Transfer Fields for Relightable Novel-view Synthesis
with Global Illumination [63.992213016011235]
本稿では,ニューラル計算された放射光伝達関数を学習し,新しい視点下でのシーンリライティング手法を提案する。
本手法は,1つの未知の照明条件下で,シーンの実際の画像に対してのみ監視することができる。
その結果, シーンパラメータのアンタングルの復元は, 現状よりも有意に向上していることがわかった。
論文 参考訳(メタデータ) (2022-07-27T16:07:48Z) - Designing An Illumination-Aware Network for Deep Image Relighting [69.750906769976]
本稿では、階層的なサンプリングから1つの画像からシーンを段階的にリライトするためのガイダンスに従うイルミネーション・アウェア・ネットワーク(IAN)を提案する。
さらに、物理レンダリングプロセスの近似として、イルミネーション・アウェア・残留ブロック(IARB)が設計されている。
実験の結果,提案手法は従来の最先端手法よりも定量的,定性的な照準結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-07-21T16:21:24Z) - DIB-R++: Learning to Predict Lighting and Material with a Hybrid
Differentiable Renderer [78.91753256634453]
そこで本研究では,単体画像から固有物体特性を推定する難題について,微分可能量を用いて検討する。
そこで本研究では、スペクトル化とレイトレーシングを組み合わせることで、これらの効果をサポートするハイブリッド微分可能なDIBR++を提案する。
より高度な物理ベースの微分可能値と比較すると、DIBR++はコンパクトで表現力のあるモデルであるため、高い性能を持つ。
論文 参考訳(メタデータ) (2021-10-30T01:59:39Z) - Optical Flow Dataset Synthesis from Unpaired Images [36.158607790844705]
本稿では,光の流れを教師付きで訓練するために使用できる擬似実画像の訓練セットを構築する新しい手法を提案する。
我々のデータセットは実データから2つの未ペアフレームを使用し、ランダムなワープをシミュレートしてフレームのペアを生成する。
そこで我々は,真理を正確に把握しながら,実データを直接訓練する利点を得る。
論文 参考訳(メタデータ) (2021-04-02T22:19:47Z) - Deep CG2Real: Synthetic-to-Real Translation via Image Disentanglement [78.58603635621591]
画像空間における未ペアの合成-現実翻訳ネットワークの訓練は、厳しい制約下にある。
画像の非交叉シェーディング層とアルベド層に作用する半教師付きアプローチを提案する。
私たちの2段階のパイプラインはまず、物理ベースのレンダリングをターゲットとして、教師付き方法で正確なシェーディングを予測することを学習します。
論文 参考訳(メタデータ) (2020-03-27T21:45:41Z) - Adversarial Texture Optimization from RGB-D Scans [37.78810126921875]
弱教師付き視点から得られた条件付き対向損失を用いた色彩テクスチャ生成のための新しい手法を提案する。
提案手法の鍵となる考え方は,テクスチャ最適化をミスアライメントに寛容に導くパッチベースの条件判別器を学習することである。
論文 参考訳(メタデータ) (2020-03-18T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。