論文の概要: Neural Document Unwarping using Coupled Grids
- arxiv url: http://arxiv.org/abs/2302.02887v1
- Date: Mon, 6 Feb 2023 15:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 16:10:44.312675
- Title: Neural Document Unwarping using Coupled Grids
- Title(参考訳): 結合グリッドを用いた神経文書のアンワーピング
- Authors: Floor Verhoeven, Tanguy Magne, Olga Sorkine-Hornung
- Abstract要約: カジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。
グリッドベースの単一画像文書のアンウォープのための新しい手法を提案する。
本手法は深部完全畳み込みニューラルネットワークを用いて幾何歪み補正を行う。
- 参考スコア(独自算出の注目度): 18.424608784360352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Restoring the original, flat appearance of a printed document from casual
photographs of bent and wrinkled pages is a common everyday problem. In this
paper we propose a novel method for grid-based single-image document unwarping.
Our method performs geometric distortion correction via a deep fully
convolutional neural network that learns to predict the 3D grid mesh of the
document and the corresponding 2D unwarping grid in a multi-task fashion,
implicitly encoding the coupling between the shape of a 3D object and its 2D
image. We additionally create and publish our own dataset, called UVDoc, which
combines pseudo-photorealistic document images with ground truth grid-based
physical 3D and unwarping information, allowing unwarping models to train on
data that is more realistic in appearance than the commonly used synthetic
Doc3D dataset, whilst also being more physically accurate. Our dataset is
labeled with all the information necessary to train our unwarping network,
without having to engineer separate loss functions that can deal with the lack
of ground-truth typically found in document in the wild datasets. We include a
thorough evaluation that demonstrates that our dual-task unwarping network
trained on a mix of synthetic and pseudo-photorealistic images achieves
state-of-the-art performance on the DocUNet benchmark dataset. Our code,
results and UVDoc dataset will be made publicly available upon publication.
- Abstract(参考訳): 折りたたまれたページのカジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。
本稿では,グリッドベースの単一画像文書のアンウォープ手法を提案する。
提案手法は,文書の3次元グリッドメッシュとそれに対応する2次元アンウォープグリッドをマルチタスク方式で予測し,その形状と2次元画像との結合を暗黙的に符号化する深部完全畳み込みニューラルネットワークを用いて幾何的歪み補正を行う。
さらに、UVDocと呼ばれる独自のデータセットを作成し、公開しています。これは、擬似フォトリアリスティックなドキュメントイメージと、地上の真理グリッドに基づく物理3Dとアンウォープ情報を組み合わせて、アンウォープモデルが、一般的な合成Doc3Dデータセットよりもリアルなデータでトレーニングし、物理的な精度も向上します。
私たちのデータセットには、典型的に野生のデータセットで見られる基盤構造が欠如していることに対処可能な、別々の損失関数を設計することなく、アンウォーピングネットワークをトレーニングするために必要なすべての情報がラベル付けされています。
我々は、合成および擬似フォトリアリスティック画像の混合でトレーニングされたデュアルタスク・アンウォーピングネットワークがDocUNetベンチマークデータセットで最先端のパフォーマンスを達成することを示す、徹底的な評価を含む。
私たちのコード、結果、UVDocデータセットは、公開時に公開されます。
関連論文リスト
- DocGraphLM: Documental Graph Language Model for Information Extraction [15.649726614383388]
本稿では,事前学習した言語モデルとグラフセマンティクスを組み合わせたフレームワークDocGraphLMを紹介する。
これを実現するために,1)文書を表す共同エンコーダアーキテクチャを提案し,2)文書グラフを再構築するための新しいリンク予測手法を提案する。
3つのSotAデータセットに対する実験により、IEおよびQAタスクにおける一貫した改善とグラフ機能の導入が示された。
論文 参考訳(メタデータ) (2024-01-05T14:15:36Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - Geometric Representation Learning for Document Image Rectification [137.75133384124976]
本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。
私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。
実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-15T01:57:40Z) - PeRFception: Perception using Radiance Fields [72.99583614735545]
私たちは、PeRFceptionと呼ばれる知覚タスクのための、最初の大規模な暗黙的表現データセットを作成します。
元のデータセットからかなりのメモリ圧縮率 (96.4%) を示し、2D情報と3D情報の両方を統一形式で格納している。
この暗黙の形式を直接入力する分類とセグメンテーションモデルを構築し、画像の背景に過度に収まらないよう、新しい拡張手法を提案する。
論文 参考訳(メタデータ) (2022-08-24T13:32:46Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - Sim2Real Docs: Domain Randomization for Documents in Natural Scenes
using Ray-traced Rendering [2.8034191857296933]
Sim2Real Docsは、自然な場面でドキュメントのデータセットとドメインランダム化を実行するためのフレームワークである。
光、幾何学、カメラ、背景の物理的相互作用をシミュレートするレンダリングを使用することで、自然な場面で文書のデータセットを合成する。
機械学習モデルの役割は、レンダリングパイプラインによって引き起こされる逆問題を解決することである。
論文 参考訳(メタデータ) (2021-12-16T22:07:48Z) - From Synthetic to Real: Image Dehazing Collaborating with Unlabeled Real
Data [58.50411487497146]
ラベルのない実データと協調する新しい画像デハージングフレームワークを提案する。
まず,特徴表現を3つの成分マップに切り離す不整合画像デハージングネットワーク(DID-Net)を開発する。
そして、無ラベルの実データと協調して単一画像のデハージングを促進するために、不整合平均教師ネットワーク(DMT-Net)を用いる。
論文 参考訳(メタデータ) (2021-08-06T04:00:28Z) - RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。
我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。
我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2021-02-01T19:26:17Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。