Fugu-MT 論文翻訳(概要): Neural Document Unwarping using Coupled Grids

論文の概要: Neural Document Unwarping using Coupled Grids

arxiv url: http://arxiv.org/abs/2302.02887v1
Date: Mon, 6 Feb 2023 15:53:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-07 16:10:44.312675
Title: Neural Document Unwarping using Coupled Grids
Title（参考訳）: 結合グリッドを用いた神経文書のアンワーピング
Authors: Floor Verhoeven, Tanguy Magne, Olga Sorkine-Hornung
Abstract要約: カジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。グリッドベースの単一画像文書のアンウォープのための新しい手法を提案する。本手法は深部完全畳み込みニューラルネットワークを用いて幾何歪み補正を行う。
参考スコア（独自算出の注目度）: 18.424608784360352
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Restoring the original, flat appearance of a printed document from casual photographs of bent and wrinkled pages is a common everyday problem. In this paper we propose a novel method for grid-based single-image document unwarping. Our method performs geometric distortion correction via a deep fully convolutional neural network that learns to predict the 3D grid mesh of the document and the corresponding 2D unwarping grid in a multi-task fashion, implicitly encoding the coupling between the shape of a 3D object and its 2D image. We additionally create and publish our own dataset, called UVDoc, which combines pseudo-photorealistic document images with ground truth grid-based physical 3D and unwarping information, allowing unwarping models to train on data that is more realistic in appearance than the commonly used synthetic Doc3D dataset, whilst also being more physically accurate. Our dataset is labeled with all the information necessary to train our unwarping network, without having to engineer separate loss functions that can deal with the lack of ground-truth typically found in document in the wild datasets. We include a thorough evaluation that demonstrates that our dual-task unwarping network trained on a mix of synthetic and pseudo-photorealistic images achieves state-of-the-art performance on the DocUNet benchmark dataset. Our code, results and UVDoc dataset will be made publicly available upon publication.
Abstract（参考訳）: 折りたたまれたページのカジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。本稿では,グリッドベースの単一画像文書のアンウォープ手法を提案する。提案手法は,文書の3次元グリッドメッシュとそれに対応する2次元アンウォープグリッドをマルチタスク方式で予測し,その形状と2次元画像との結合を暗黙的に符号化する深部完全畳み込みニューラルネットワークを用いて幾何的歪み補正を行う。さらに、UVDocと呼ばれる独自のデータセットを作成し、公開しています。これは、擬似フォトリアリスティックなドキュメントイメージと、地上の真理グリッドに基づく物理3Dとアンウォープ情報を組み合わせて、アンウォープモデルが、一般的な合成Doc3Dデータセットよりもリアルなデータでトレーニングし、物理的な精度も向上します。私たちのデータセットには、典型的に野生のデータセットで見られる基盤構造が欠如していることに対処可能な、別々の損失関数を設計することなく、アンウォーピングネットワークをトレーニングするために必要なすべての情報がラベル付けされています。我々は、合成および擬似フォトリアリスティック画像の混合でトレーニングされたデュアルタスク・アンウォーピングネットワークがDocUNetベンチマークデータセットで最先端のパフォーマンスを達成することを示す、徹底的な評価を含む。私たちのコード、結果、UVDocデータセットは、公開時に公開されます。

関連論文リスト

BookNet: Book Image Rectification via Cross-Page Attention Network [61.60737484928661]
両ページ画像の修正に特化して設計された,エンド・ツー・エンドのディープラーニングフレームワークであるBookNetを紹介する。 BookNetは、ページ間のアテンション機構を備えたデュアルブランチアーキテクチャを採用しており、個々のページと完全なブックスプレッドの両方のワープフローを推定することができる。専門的なデータセットの欠如に対処するため、トレーニング用の大規模合成データセットであるBook3Dと、評価のための総合的な実世界のベンチマークであるBook100を紹介する。
論文参考訳（メタデータ） (2026-01-29T16:26:25Z)
DvD: Unleashing a Generative Paradigm for Document Dewarping via Coordinates-based Diffusion Model [36.509036144494495]
DvDはDiffusionフレームワークを介して文書のデウォーピングに取り組む最初の生成モデルである。具体的に言うと、DvDは典型的なピクセルレベルのデノナイジングの代わりに座標レベルのデノナイジングを導入し、変形補正のためのマッピングを生成する。我々は,6300の実画像対からなる大規模文書デウォープベンチマークであるAnyPhotoDoc6300を提案する。
論文参考訳（メタデータ） (2025-05-28T05:05:51Z)
LaRI: Layered Ray Intersections for Single-view 3D Geometric Reasoning [75.9814389360821]
層状光線交差(LaRI)は、1つの画像から未知の幾何学的推論を行う新しい方法である。コンパクトで階層的な表現から恩恵を受けることで、LaRIは完全で効率的でビュー整合な幾何学的推論を可能にする。 3Dオブジェクトやシーンを含む、合成および実世界のデータのための完全なトレーニングデータ生成パイプラインを構築します。
論文参考訳（メタデータ） (2025-04-25T15:31:29Z)
Geometry Restoration and Dewarping of Camera-Captured Document Images [0.0]
本研究では,カメラが捉えた紙文書のデジタル画像のトポロジを復元する手法の開発に焦点をあてる。本手法では,文書アウトライン検出に深層学習(DL)を用い,次いでコンピュータビジョン(CV)を用いてトポロジカル2Dグリッドを作成する。
論文参考訳（メタデータ） (2025-01-06T17:12:19Z)
FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文参考訳（メタデータ） (2024-10-13T01:25:05Z)
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文参考訳（メタデータ） (2024-03-04T07:57:05Z)
DocGraphLM: Documental Graph Language Model for Information Extraction [15.649726614383388]
本稿では,事前学習した言語モデルとグラフセマンティクスを組み合わせたフレームワークDocGraphLMを紹介する。これを実現するために,1)文書を表す共同エンコーダアーキテクチャを提案し,2)文書グラフを再構築するための新しいリンク予測手法を提案する。 3つのSotAデータセットに対する実験により、IEおよびQAタスクにおける一貫した改善とグラフ機能の導入が示された。
論文参考訳（メタデータ） (2024-01-05T14:15:36Z)
Geometric Representation Learning for Document Image Rectification [137.75133384124976]
本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-15T01:57:40Z)
NeuralReshaper: Single-image Human-body Retouching with Deep Neural Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文参考訳（メタデータ） (2022-03-20T09:02:13Z)
Sim2Real Docs: Domain Randomization for Documents in Natural Scenes using Ray-traced Rendering [2.8034191857296933]
Sim2Real Docsは、自然な場面でドキュメントのデータセットとドメインランダム化を実行するためのフレームワークである。光、幾何学、カメラ、背景の物理的相互作用をシミュレートするレンダリングを使用することで、自然な場面で文書のデータセットを合成する。機械学習モデルの役割は、レンダリングパイプラインによって引き起こされる逆問題を解決することである。
論文参考訳（メタデータ） (2021-12-16T22:07:48Z)
From Synthetic to Real: Image Dehazing Collaborating with Unlabeled Real Data [58.50411487497146]
ラベルのない実データと協調する新しい画像デハージングフレームワークを提案する。まず,特徴表現を3つの成分マップに切り離す不整合画像デハージングネットワーク(DID-Net)を開発する。そして、無ラベルの実データと協調して単一画像のデハージングを促進するために、不整合平均教師ネットワーク(DMT-Net)を用いる。
論文参考訳（メタデータ） (2021-08-06T04:00:28Z)
RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文参考訳（メタデータ） (2021-02-01T19:26:17Z)
Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文参考訳（メタデータ） (2020-06-29T12:53:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。