論文の概要: Sim2Real Docs: Domain Randomization for Documents in Natural Scenes
using Ray-traced Rendering
- arxiv url: http://arxiv.org/abs/2112.09220v1
- Date: Thu, 16 Dec 2021 22:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 04:12:35.353729
- Title: Sim2Real Docs: Domain Randomization for Documents in Natural Scenes
using Ray-traced Rendering
- Title(参考訳): Sim2Real Docs:レイトレーシングによる自然場面の文書のドメインランダム化
- Authors: Nikhil Maddikunta, Huijun Zhao, Sumit Keswani, Alfy Samuel, Fu-Ming
Guo, Nishan Srishankar, Vishwa Pardeshi, Austin Huang
- Abstract要約: Sim2Real Docsは、自然な場面でドキュメントのデータセットとドメインランダム化を実行するためのフレームワークである。
光、幾何学、カメラ、背景の物理的相互作用をシミュレートするレンダリングを使用することで、自然な場面で文書のデータセットを合成する。
機械学習モデルの役割は、レンダリングパイプラインによって引き起こされる逆問題を解決することである。
- 参考スコア(独自算出の注目度): 2.8034191857296933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the past, computer vision systems for digitized documents could rely on
systematically captured, high-quality scans. Today, transactions involving
digital documents are more likely to start as mobile phone photo uploads taken
by non-professionals. As such, computer vision for document automation must now
account for documents captured in natural scene contexts. An additional
challenge is that task objectives for document processing can be highly
use-case specific, which makes publicly-available datasets limited in their
utility, while manual data labeling is also costly and poorly translates
between use cases.
To address these issues we created Sim2Real Docs - a framework for
synthesizing datasets and performing domain randomization of documents in
natural scenes. Sim2Real Docs enables programmatic 3D rendering of documents
using Blender, an open source tool for 3D modeling and ray-traced rendering. By
using rendering that simulates physical interactions of light, geometry,
camera, and background, we synthesize datasets of documents in a natural scene
context. Each render is paired with use-case specific ground truth data
specifying latent characteristics of interest, producing unlimited fit-for-task
training data. The role of machine learning models is then to solve the inverse
problem posed by the rendering pipeline. Such models can be further iterated
upon with real-world data by either fine tuning or making adjustments to domain
randomization parameters.
- Abstract(参考訳): 過去には、デジタル化された文書のためのコンピュータビジョンシステムは、体系的にキャプチャされた高品質なスキャンに依存していた。
現在、デジタルドキュメントに関する取引は、プロでない人が撮った携帯電話の写真アップロードで始まる可能性が高い。
そのため、文書自動化のためのコンピュータビジョンは、自然の場面で捉えた文書を考慮に入れなければならない。
もう1つの課題は、ドキュメント処理のタスクの目的が非常にユースケースに特化できることだ。これにより、手作業によるデータラベリングもまたコストがかかり、ユースケース間での変換が不十分である。
sim2real docsは、データセットを合成し、自然なシーンでドキュメントのドメインランダム化を実行するためのフレームワークです。
sim2real docsは3dモデリングとレイトレースレンダリングのためのオープンソースツールであるblenderを使って文書のプログラム的な3dレンダリングを可能にする。
光、幾何学、カメラ、背景の物理的相互作用をシミュレートするレンダリングを使用することで、自然な場面で文書のデータセットを合成する。
各レンダリングは、興味のある潜在特性を特定するユースケース固有の基底真理データとペアリングされ、無制限にタスクに適合するトレーニングデータを生成する。
機械学習モデルの役割は、レンダリングパイプラインによって引き起こされる逆問題を解決することである。
このようなモデルは、微調整やドメインランダム化パラメータの調整によって、現実世界のデータでさらに反復することができる。
関連論文リスト
- BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - UVDoc: Neural Grid-based Document Unwarping [20.51368640747448]
カジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。
グリッドベースの単一画像文書のアンウォープのための新しい手法を提案する。
本手法は,完全畳み込み型ディープニューラルネットワークを用いて幾何歪み補正を行う。
論文 参考訳(メタデータ) (2023-02-06T15:53:34Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文 参考訳(メタデータ) (2022-03-20T13:06:15Z) - MINERVAS: Massive INterior EnviRonments VirtuAl Synthesis [27.816895835009994]
本稿では,様々な視覚タスクのための3次元シーン修正と2次元画像合成を容易にするために,大規模インテリアエンビジョンメントVirtuAl合成システムを提案する。
本研究では,ドメイン特化言語を用いたプログラマブルパイプラインを設計し,商業屋内シーンデータベースからシーンを選択する。
合成したデータを用いて,様々なコンピュータビジョンタスクの性能向上を図ることにより,システムの有効性と柔軟性を実証する。
論文 参考訳(メタデータ) (2021-07-13T14:53:01Z) - NViSII: A Scriptable Tool for Photorealistic Image Generation [21.453677837017462]
本稿では,NVIDIA の OptiX 線追跡エンジンと,高品質な合成画像を生成するために設計された OptiX AI denoiser をベースとした Python ベースのシステムを提案する。
我々のツールは複雑な動的3Dシーンの記述と操作を可能にする。
論文 参考訳(メタデータ) (2021-05-28T16:35:32Z) - UnrealROX+: An Improved Tool for Acquiring Synthetic Data from Virtual
3D Environments [14.453602631430508]
ロボット画像から合成データを生成するためのツールであるUnrealROXの改良版を紹介します。
UnrealROX+には、Deep Learningフレームワークから仮想環境と対話するalbedoやPython APIを生成する、といった新機能が含まれている。
論文 参考訳(メタデータ) (2021-04-23T18:45:42Z) - Generating Synthetic Handwritten Historical Documents With OCR
Constrained GANs [2.3808546906079178]
我々は,無記名歴史画像のコレクションのみを用いて,正確な根拠真理を持つ合成歴史文書を生成する枠組みを提案する。
我々は,大規模ラベル付き歴史文書データセットを精度良く生成することのできる高品質な合成法を実証する。
論文 参考訳(メタデータ) (2021-03-15T09:39:17Z) - OpenRooms: An End-to-End Open Framework for Photorealistic Indoor Scene
Datasets [103.54691385842314]
本研究では,屋内シーンの大規模フォトリアリスティックデータセットを作成するための新しいフレームワークを提案する。
私たちの目標は、データセット作成プロセスを広く利用できるようにすることです。
これにより、逆レンダリング、シーン理解、ロボット工学における重要な応用が可能になる。
論文 参考訳(メタデータ) (2020-07-25T06:48:47Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。