論文の概要: UVDoc: Neural Grid-based Document Unwarping
- arxiv url: http://arxiv.org/abs/2302.02887v2
- Date: Tue, 27 Feb 2024 15:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 01:05:41.684228
- Title: UVDoc: Neural Grid-based Document Unwarping
- Title(参考訳): uvdoc:neural gridベースのドキュメントアンワーピング
- Authors: Floor Verhoeven, Tanguy Magne, Olga Sorkine-Hornung
- Abstract要約: カジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。
グリッドベースの単一画像文書のアンウォープのための新しい手法を提案する。
本手法は,完全畳み込み型ディープニューラルネットワークを用いて幾何歪み補正を行う。
- 参考スコア(独自算出の注目度): 20.51368640747448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Restoring the original, flat appearance of a printed document from casual
photographs of bent and wrinkled pages is a common everyday problem. In this
paper we propose a novel method for grid-based single-image document unwarping.
Our method performs geometric distortion correction via a fully convolutional
deep neural network that learns to predict the 3D grid mesh of the document and
the corresponding 2D unwarping grid in a dual-task fashion, implicitly encoding
the coupling between the shape of a 3D piece of paper and its 2D image. In
order to allow unwarping models to train on data that is more realistic in
appearance than the commonly used synthetic Doc3D dataset, we create and
publish our own dataset, called UVDoc, which combines pseudo-photorealistic
document images with physically accurate 3D shape and unwarping function
annotations. Our dataset is labeled with all the information necessary to train
our unwarping network, without having to engineer separate loss functions that
can deal with the lack of ground-truth typically found in document in the wild
datasets. We perform an in-depth evaluation that demonstrates that with the
inclusion of our novel pseudo-photorealistic dataset, our relatively small
network architecture achieves state-of-the-art results on the DocUNet
benchmark. We show that the pseudo-photorealistic nature of our UVDoc dataset
allows for new and better evaluation methods, such as lighting-corrected
MS-SSIM. We provide a novel benchmark dataset that facilitates such
evaluations, and propose a metric that quantifies line straightness after
unwarping. Our code, results and UVDoc dataset are available at
https://github.com/tanguymagne/UVDoc.
- Abstract(参考訳): 折りたたまれたページのカジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。
本稿では,グリッドベースの単一画像文書のアンウォープ手法を提案する。
提案手法は,文書の3次元グリッドメッシュとそれに対応する2次元アンウォープグリッドを二重タスク方式で予測し,紙の形状と2次元画像との結合を暗黙的に符号化する,完全畳み込み型ディープニューラルネットワークを用いて幾何的歪み補正を行う。
一般的なDoc3Dデータセットよりもリアルに見えるデータに基づいてアンウォープモデルをトレーニングできるように、擬似フォトリアリスティックな文書イメージと物理的に正確な3D形状とアンウォープ関数アノテーションを組み合わせた、UVDocと呼ばれるデータセットを作成し、公開します。
私たちのデータセットには、典型的に野生のデータセットで見られる基盤構造が欠如していることに対処可能な、別々の損失関数を設計することなく、アンウォーピングネットワークをトレーニングするために必要なすべての情報がラベル付けされています。
我々は、新しい擬似フォトリアリスティックデータセットを含めることで、DocUNetベンチマークで比較的小さなネットワークアーキテクチャが最先端の結果を達成することを示す詳細な評価を行う。
UVDocデータセットの擬似フォトリアリスティックな性質は、照明補正MS-SSIMのような新しい評価方法を可能にする。
このような評価を容易にする新しいベンチマークデータセットを提案し、アンウォープ後の直線直線性を定量化する指標を提案する。
私たちのコード、結果、UVDocデータセットはhttps://github.com/tanguymagne/UVDocで利用可能です。
関連論文リスト
- DocGraphLM: Documental Graph Language Model for Information Extraction [15.649726614383388]
本稿では,事前学習した言語モデルとグラフセマンティクスを組み合わせたフレームワークDocGraphLMを紹介する。
これを実現するために,1)文書を表す共同エンコーダアーキテクチャを提案し,2)文書グラフを再構築するための新しいリンク予測手法を提案する。
3つのSotAデータセットに対する実験により、IEおよびQAタスクにおける一貫した改善とグラフ機能の導入が示された。
論文 参考訳(メタデータ) (2024-01-05T14:15:36Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - Geometric Representation Learning for Document Image Rectification [137.75133384124976]
本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。
私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。
実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-15T01:57:40Z) - PeRFception: Perception using Radiance Fields [72.99583614735545]
私たちは、PeRFceptionと呼ばれる知覚タスクのための、最初の大規模な暗黙的表現データセットを作成します。
元のデータセットからかなりのメモリ圧縮率 (96.4%) を示し、2D情報と3D情報の両方を統一形式で格納している。
この暗黙の形式を直接入力する分類とセグメンテーションモデルを構築し、画像の背景に過度に収まらないよう、新しい拡張手法を提案する。
論文 参考訳(メタデータ) (2022-08-24T13:32:46Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - Sim2Real Docs: Domain Randomization for Documents in Natural Scenes
using Ray-traced Rendering [2.8034191857296933]
Sim2Real Docsは、自然な場面でドキュメントのデータセットとドメインランダム化を実行するためのフレームワークである。
光、幾何学、カメラ、背景の物理的相互作用をシミュレートするレンダリングを使用することで、自然な場面で文書のデータセットを合成する。
機械学習モデルの役割は、レンダリングパイプラインによって引き起こされる逆問題を解決することである。
論文 参考訳(メタデータ) (2021-12-16T22:07:48Z) - From Synthetic to Real: Image Dehazing Collaborating with Unlabeled Real
Data [58.50411487497146]
ラベルのない実データと協調する新しい画像デハージングフレームワークを提案する。
まず,特徴表現を3つの成分マップに切り離す不整合画像デハージングネットワーク(DID-Net)を開発する。
そして、無ラベルの実データと協調して単一画像のデハージングを促進するために、不整合平均教師ネットワーク(DMT-Net)を用いる。
論文 参考訳(メタデータ) (2021-08-06T04:00:28Z) - RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。
我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。
我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2021-02-01T19:26:17Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。