Fugu-MT 論文翻訳(概要): UVDoc: Neural Grid-based Document Unwarping

論文の概要: UVDoc: Neural Grid-based Document Unwarping

arxiv url: http://arxiv.org/abs/2302.02887v2
Date: Tue, 27 Feb 2024 15:59:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 01:05:41.684228
Title: UVDoc: Neural Grid-based Document Unwarping
Title（参考訳）: uvdoc:neural gridベースのドキュメントアンワーピング
Authors: Floor Verhoeven, Tanguy Magne, Olga Sorkine-Hornung
Abstract要約: カジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。グリッドベースの単一画像文書のアンウォープのための新しい手法を提案する。本手法は,完全畳み込み型ディープニューラルネットワークを用いて幾何歪み補正を行う。
参考スコア（独自算出の注目度）: 20.51368640747448
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Restoring the original, flat appearance of a printed document from casual photographs of bent and wrinkled pages is a common everyday problem. In this paper we propose a novel method for grid-based single-image document unwarping. Our method performs geometric distortion correction via a fully convolutional deep neural network that learns to predict the 3D grid mesh of the document and the corresponding 2D unwarping grid in a dual-task fashion, implicitly encoding the coupling between the shape of a 3D piece of paper and its 2D image. In order to allow unwarping models to train on data that is more realistic in appearance than the commonly used synthetic Doc3D dataset, we create and publish our own dataset, called UVDoc, which combines pseudo-photorealistic document images with physically accurate 3D shape and unwarping function annotations. Our dataset is labeled with all the information necessary to train our unwarping network, without having to engineer separate loss functions that can deal with the lack of ground-truth typically found in document in the wild datasets. We perform an in-depth evaluation that demonstrates that with the inclusion of our novel pseudo-photorealistic dataset, our relatively small network architecture achieves state-of-the-art results on the DocUNet benchmark. We show that the pseudo-photorealistic nature of our UVDoc dataset allows for new and better evaluation methods, such as lighting-corrected MS-SSIM. We provide a novel benchmark dataset that facilitates such evaluations, and propose a metric that quantifies line straightness after unwarping. Our code, results and UVDoc dataset are available at https://github.com/tanguymagne/UVDoc.
Abstract（参考訳）: 折りたたまれたページのカジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。本稿では,グリッドベースの単一画像文書のアンウォープ手法を提案する。提案手法は,文書の3次元グリッドメッシュとそれに対応する2次元アンウォープグリッドを二重タスク方式で予測し,紙の形状と2次元画像との結合を暗黙的に符号化する,完全畳み込み型ディープニューラルネットワークを用いて幾何的歪み補正を行う。一般的なDoc3Dデータセットよりもリアルに見えるデータに基づいてアンウォープモデルをトレーニングできるように、擬似フォトリアリスティックな文書イメージと物理的に正確な3D形状とアンウォープ関数アノテーションを組み合わせた、UVDocと呼ばれるデータセットを作成し、公開します。私たちのデータセットには、典型的に野生のデータセットで見られる基盤構造が欠如していることに対処可能な、別々の損失関数を設計することなく、アンウォーピングネットワークをトレーニングするために必要なすべての情報がラベル付けされています。我々は、新しい擬似フォトリアリスティックデータセットを含めることで、DocUNetベンチマークで比較的小さなネットワークアーキテクチャが最先端の結果を達成することを示す詳細な評価を行う。 UVDocデータセットの擬似フォトリアリスティックな性質は、照明補正MS-SSIMのような新しい評価方法を可能にする。このような評価を容易にする新しいベンチマークデータセットを提案し、アンウォープ後の直線直線性を定量化する指標を提案する。私たちのコード、結果、UVDocデータセットはhttps://github.com/tanguymagne/UVDocで利用可能です。

関連論文リスト

BookNet: Book Image Rectification via Cross-Page Attention Network [61.60737484928661]
両ページ画像の修正に特化して設計された,エンド・ツー・エンドのディープラーニングフレームワークであるBookNetを紹介する。 BookNetは、ページ間のアテンション機構を備えたデュアルブランチアーキテクチャを採用しており、個々のページと完全なブックスプレッドの両方のワープフローを推定することができる。専門的なデータセットの欠如に対処するため、トレーニング用の大規模合成データセットであるBook3Dと、評価のための総合的な実世界のベンチマークであるBook100を紹介する。
論文参考訳（メタデータ） (2026-01-29T16:26:25Z)
DvD: Unleashing a Generative Paradigm for Document Dewarping via Coordinates-based Diffusion Model [36.509036144494495]
DvDはDiffusionフレームワークを介して文書のデウォーピングに取り組む最初の生成モデルである。具体的に言うと、DvDは典型的なピクセルレベルのデノナイジングの代わりに座標レベルのデノナイジングを導入し、変形補正のためのマッピングを生成する。我々は,6300の実画像対からなる大規模文書デウォープベンチマークであるAnyPhotoDoc6300を提案する。
論文参考訳（メタデータ） (2025-05-28T05:05:51Z)
LaRI: Layered Ray Intersections for Single-view 3D Geometric Reasoning [75.9814389360821]
層状光線交差(LaRI)は、1つの画像から未知の幾何学的推論を行う新しい方法である。コンパクトで階層的な表現から恩恵を受けることで、LaRIは完全で効率的でビュー整合な幾何学的推論を可能にする。 3Dオブジェクトやシーンを含む、合成および実世界のデータのための完全なトレーニングデータ生成パイプラインを構築します。
論文参考訳（メタデータ） (2025-04-25T15:31:29Z)
Geometry Restoration and Dewarping of Camera-Captured Document Images [0.0]
本研究では,カメラが捉えた紙文書のデジタル画像のトポロジを復元する手法の開発に焦点をあてる。本手法では,文書アウトライン検出に深層学習(DL)を用い,次いでコンピュータビジョン(CV)を用いてトポロジカル2Dグリッドを作成する。
論文参考訳（メタデータ） (2025-01-06T17:12:19Z)
FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文参考訳（メタデータ） (2024-10-13T01:25:05Z)
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文参考訳（メタデータ） (2024-03-04T07:57:05Z)
DocGraphLM: Documental Graph Language Model for Information Extraction [15.649726614383388]
本稿では,事前学習した言語モデルとグラフセマンティクスを組み合わせたフレームワークDocGraphLMを紹介する。これを実現するために,1)文書を表す共同エンコーダアーキテクチャを提案し,2)文書グラフを再構築するための新しいリンク予測手法を提案する。 3つのSotAデータセットに対する実験により、IEおよびQAタスクにおける一貫した改善とグラフ機能の導入が示された。
論文参考訳（メタデータ） (2024-01-05T14:15:36Z)
Geometric Representation Learning for Document Image Rectification [137.75133384124976]
本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-15T01:57:40Z)
NeuralReshaper: Single-image Human-body Retouching with Deep Neural Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文参考訳（メタデータ） (2022-03-20T09:02:13Z)
Sim2Real Docs: Domain Randomization for Documents in Natural Scenes using Ray-traced Rendering [2.8034191857296933]
Sim2Real Docsは、自然な場面でドキュメントのデータセットとドメインランダム化を実行するためのフレームワークである。光、幾何学、カメラ、背景の物理的相互作用をシミュレートするレンダリングを使用することで、自然な場面で文書のデータセットを合成する。機械学習モデルの役割は、レンダリングパイプラインによって引き起こされる逆問題を解決することである。
論文参考訳（メタデータ） (2021-12-16T22:07:48Z)
From Synthetic to Real: Image Dehazing Collaborating with Unlabeled Real Data [58.50411487497146]
ラベルのない実データと協調する新しい画像デハージングフレームワークを提案する。まず,特徴表現を3つの成分マップに切り離す不整合画像デハージングネットワーク(DID-Net)を開発する。そして、無ラベルの実データと協調して単一画像のデハージングを促進するために、不整合平均教師ネットワーク(DMT-Net)を用いる。
論文参考訳（メタデータ） (2021-08-06T04:00:28Z)
RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文参考訳（メタデータ） (2021-02-01T19:26:17Z)
Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文参考訳（メタデータ） (2020-06-29T12:53:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。