論文の概要: MINERVAS: Massive INterior EnviRonments VirtuAl Synthesis
- arxiv url: http://arxiv.org/abs/2107.06149v1
- Date: Tue, 13 Jul 2021 14:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:40:28.768749
- Title: MINERVAS: Massive INterior EnviRonments VirtuAl Synthesis
- Title(参考訳): MINERVAS: VirtuAl合成のための大規模インテリア環境
- Authors: Haocheng Ren and Hao Zhang and Jia Zheng and Jiaxiang Zheng and Rui
Tang and Rui Wang and Hujun Bao
- Abstract要約: 本稿では,様々な視覚タスクのための3次元シーン修正と2次元画像合成を容易にするために,大規模インテリアエンビジョンメントVirtuAl合成システムを提案する。
本研究では,ドメイン特化言語を用いたプログラマブルパイプラインを設計し,商業屋内シーンデータベースからシーンを選択する。
合成したデータを用いて,様々なコンピュータビジョンタスクの性能向上を図ることにより,システムの有効性と柔軟性を実証する。
- 参考スコア(独自算出の注目度): 27.816895835009994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of data-driven techniques, data has played an
essential role in various computer vision tasks. Many realistic and synthetic
datasets have been proposed to address different problems. However, there are
lots of unresolved challenges: (1) the creation of dataset is usually a tedious
process with manual annotations, (2) most datasets are only designed for a
single specific task, (3) the modification or randomization of the 3D scene is
difficult, and (4) the release of commercial 3D data may encounter copyright
issue.
This paper presents MINERVAS, a Massive INterior EnviRonments VirtuAl
Synthesis system, to facilitate the 3D scene modification and the 2D image
synthesis for various vision tasks. In particular, we design a programmable
pipeline with Domain-Specific Language, allowing users to (1) select scenes
from the commercial indoor scene database, (2) synthesize scenes for different
tasks with customized rules, and (3) render various imagery data, such as
visual color, geometric structures, semantic label. Our system eases the
difficulty of customizing massive numbers of scenes for different tasks and
relieves users from manipulating fine-grained scene configurations by providing
user-controllable randomness using multi-level samplers. Most importantly, it
empowers users to access commercial scene databases with millions of indoor
scenes and protects the copyright of core data assets, e.g., 3D CAD models. We
demonstrate the validity and flexibility of our system by using our synthesized
data to improve the performance on different kinds of computer vision tasks.
- Abstract(参考訳): データ駆動技術が急速に発展し、様々なコンピュータビジョンタスクにおいてデータが重要な役割を担ってきた。
様々な問題に対処するために、多くの現実的な合成データセットが提案されている。
しかし,(1)データセットの作成は通常,手作業による面倒なプロセスであり,(2)ほとんどのデータセットは1つの特定のタスクのためにのみ設計されており,(3)3Dシーンの変更やランダム化は困難であり,(4)商用3Dデータのリリースは著作権問題に直面する可能性がある。
本稿では,大規模室内環境仮想合成システムである minervas について,視覚課題に対する3次元シーンの修正と2次元画像合成を容易にすることを目的とする。
特に,ドメイン特化言語を用いたプログラム可能なパイプラインを設計し,(1)市販屋内シーンデータベースからシーンを選択すること,(2)カスタマイズされたルールで異なるタスクのシーンを合成すること,(3)視覚色,幾何学的構造,セマンティックラベルなどの様々な画像データを描画することなどが可能である。
本システムでは,タスクごとに多数のシーンをカスタマイズすることの難しさを軽減し,マルチレベルサンプリングシステムを用いてユーザ制御可能なランダム性を提供することにより,きめ細かいシーン構成の操作を省く。
最も重要なことは、ユーザーが数百万の屋内シーンを持つ商用シーンデータベースにアクセスし、コアデータ資産、例えば3DCADモデルの著作権を保護することである。
本稿では,様々なコンピュータビジョンタスクの性能を向上させるために,合成データを用いてシステムの有効性と柔軟性を示す。
関連論文リスト
- A transition towards virtual representations of visual scenes [1.4201040196058878]
視覚的シーン理解は、視覚データから意味のある情報を抽出することを目的とした、コンピュータビジョンの基本的なタスクである。
本稿では3次元仮想合成に向けた視覚的シーン理解と記述の課題に対処するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-10T14:41:04Z) - 3D Vision and Language Pretraining with Large-Scale Synthetic Data [28.45763758308814]
3D Vision-Language Pre-Trainingの目的は、3Dシーンを自然言語でブリッジできるプリトレインモデルを提供することだ。
SynVL3Dは10Kの屋内シーンと1Mのオブジェクト、ビュー、ルームレベルでの記述を備えた総合的な合成シーンテキストコーパスである。
本稿では、下流タスクの微調整プロセスにおけるドメインシフトに対応するために、合成から現実へのドメイン適応を提案する。
論文 参考訳(メタデータ) (2024-07-08T16:26:52Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - HyperDreamer: Hyper-Realistic 3D Content Generation and Editing from a
Single Image [94.11473240505534]
一つの画像から3Dコンテンツを作成するためのツールであるHyperDreamerを紹介します。
ユーザーは、結果の3Dコンテンツをフル範囲から閲覧、レンダリング、編集できないため、ポストジェネレーションの使用には十分である。
高分解能なテクスチャとユーザフレンドリーな編集が可能な領域認識素材のモデリングにおけるHyperDreamerの有効性を実証する。
論文 参考訳(メタデータ) (2023-12-07T18:58:09Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - DORSal: Diffusion for Object-centric Representations of Scenes et al [28.181157214966493]
最近の3Dシーン理解の進歩は、多様なシーンの大きなデータセットにわたる表現のスケーラブルな学習を可能にする。
本研究では,凍結したオブジェクト中心のスロットベースのシーン表現を条件とした3次元シーン生成にビデオ拡散アーキテクチャを適用したDORSalを提案する。
論文 参考訳(メタデータ) (2023-06-13T18:32:35Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - Equivariant Neural Rendering [22.95150913645939]
本稿では,3次元の監督なしに画像から直接ニューラルシーン表現を学習するためのフレームワークを提案する。
我々の重要な洞察は、学習された表現が本物の3Dシーンのように変換されることを保証することで、3D構造を課すことである。
私たちの定式化によって、推論に数分を要するモデルに匹敵する結果を得ながら、リアルタイムでシーンを推測および描画することが可能になります。
論文 参考訳(メタデータ) (2020-06-13T12:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。