論文の概要: Neural Document Unwarping using Coupled Grids
- arxiv url: http://arxiv.org/abs/2302.02887v1
- Date: Mon, 6 Feb 2023 15:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 16:10:44.312675
- Title: Neural Document Unwarping using Coupled Grids
- Title(参考訳): 結合グリッドを用いた神経文書のアンワーピング
- Authors: Floor Verhoeven, Tanguy Magne, Olga Sorkine-Hornung
- Abstract要約: カジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。
グリッドベースの単一画像文書のアンウォープのための新しい手法を提案する。
本手法は深部完全畳み込みニューラルネットワークを用いて幾何歪み補正を行う。
- 参考スコア(独自算出の注目度): 18.424608784360352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Restoring the original, flat appearance of a printed document from casual
photographs of bent and wrinkled pages is a common everyday problem. In this
paper we propose a novel method for grid-based single-image document unwarping.
Our method performs geometric distortion correction via a deep fully
convolutional neural network that learns to predict the 3D grid mesh of the
document and the corresponding 2D unwarping grid in a multi-task fashion,
implicitly encoding the coupling between the shape of a 3D object and its 2D
image. We additionally create and publish our own dataset, called UVDoc, which
combines pseudo-photorealistic document images with ground truth grid-based
physical 3D and unwarping information, allowing unwarping models to train on
data that is more realistic in appearance than the commonly used synthetic
Doc3D dataset, whilst also being more physically accurate. Our dataset is
labeled with all the information necessary to train our unwarping network,
without having to engineer separate loss functions that can deal with the lack
of ground-truth typically found in document in the wild datasets. We include a
thorough evaluation that demonstrates that our dual-task unwarping network
trained on a mix of synthetic and pseudo-photorealistic images achieves
state-of-the-art performance on the DocUNet benchmark dataset. Our code,
results and UVDoc dataset will be made publicly available upon publication.
- Abstract(参考訳): 折りたたまれたページのカジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。
本稿では,グリッドベースの単一画像文書のアンウォープ手法を提案する。
提案手法は,文書の3次元グリッドメッシュとそれに対応する2次元アンウォープグリッドをマルチタスク方式で予測し,その形状と2次元画像との結合を暗黙的に符号化する深部完全畳み込みニューラルネットワークを用いて幾何的歪み補正を行う。
さらに、UVDocと呼ばれる独自のデータセットを作成し、公開しています。これは、擬似フォトリアリスティックなドキュメントイメージと、地上の真理グリッドに基づく物理3Dとアンウォープ情報を組み合わせて、アンウォープモデルが、一般的な合成Doc3Dデータセットよりもリアルなデータでトレーニングし、物理的な精度も向上します。
私たちのデータセットには、典型的に野生のデータセットで見られる基盤構造が欠如していることに対処可能な、別々の損失関数を設計することなく、アンウォーピングネットワークをトレーニングするために必要なすべての情報がラベル付けされています。
我々は、合成および擬似フォトリアリスティック画像の混合でトレーニングされたデュアルタスク・アンウォーピングネットワークがDocUNetベンチマークデータセットで最先端のパフォーマンスを達成することを示す、徹底的な評価を含む。
私たちのコード、結果、UVDocデータセットは、公開時に公開されます。
関連論文リスト
- FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - DocGraphLM: Documental Graph Language Model for Information Extraction [15.649726614383388]
本稿では,事前学習した言語モデルとグラフセマンティクスを組み合わせたフレームワークDocGraphLMを紹介する。
これを実現するために,1)文書を表す共同エンコーダアーキテクチャを提案し,2)文書グラフを再構築するための新しいリンク予測手法を提案する。
3つのSotAデータセットに対する実験により、IEおよびQAタスクにおける一貫した改善とグラフ機能の導入が示された。
論文 参考訳(メタデータ) (2024-01-05T14:15:36Z) - Geometric Representation Learning for Document Image Rectification [137.75133384124976]
本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。
私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。
実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-15T01:57:40Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - Sim2Real Docs: Domain Randomization for Documents in Natural Scenes
using Ray-traced Rendering [2.8034191857296933]
Sim2Real Docsは、自然な場面でドキュメントのデータセットとドメインランダム化を実行するためのフレームワークである。
光、幾何学、カメラ、背景の物理的相互作用をシミュレートするレンダリングを使用することで、自然な場面で文書のデータセットを合成する。
機械学習モデルの役割は、レンダリングパイプラインによって引き起こされる逆問題を解決することである。
論文 参考訳(メタデータ) (2021-12-16T22:07:48Z) - From Synthetic to Real: Image Dehazing Collaborating with Unlabeled Real
Data [58.50411487497146]
ラベルのない実データと協調する新しい画像デハージングフレームワークを提案する。
まず,特徴表現を3つの成分マップに切り離す不整合画像デハージングネットワーク(DID-Net)を開発する。
そして、無ラベルの実データと協調して単一画像のデハージングを促進するために、不整合平均教師ネットワーク(DMT-Net)を用いる。
論文 参考訳(メタデータ) (2021-08-06T04:00:28Z) - RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。
我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。
我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2021-02-01T19:26:17Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。