Fugu-MT 論文翻訳(概要): MINERVAS: Massive INterior EnviRonments VirtuAl Synthesis

論文の概要: MINERVAS: Massive INterior EnviRonments VirtuAl Synthesis

arxiv url: http://arxiv.org/abs/2107.06149v2
Date: Wed, 14 Jul 2021 14:21:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-15 11:17:20.665124
Title: MINERVAS: Massive INterior EnviRonments VirtuAl Synthesis
Title（参考訳）: MINERVAS: VirtuAl合成のための大規模インテリア環境
Authors: Haocheng Ren and Hao Zhang and Jia Zheng and Jiaxiang Zheng and Rui Tang and Rui Wang and Hujun Bao
Abstract要約: 本稿では,様々な視覚タスクのための3次元シーン修正と2次元画像合成を容易にするために,大規模インテリアエンビジョンメントVirtuAl合成システムを提案する。本研究では,ドメイン特化言語を用いたプログラマブルパイプラインを設計し,商業屋内シーンデータベースからシーンを選択する。合成したデータを用いて,様々なコンピュータビジョンタスクの性能向上を図ることにより,システムの有効性と柔軟性を実証する。
参考スコア（独自算出の注目度）: 27.816895835009994
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid development of data-driven techniques, data has played an essential role in various computer vision tasks. Many realistic and synthetic datasets have been proposed to address different problems. However, there are lots of unresolved challenges: (1) the creation of dataset is usually a tedious process with manual annotations, (2) most datasets are only designed for a single specific task, (3) the modification or randomization of the 3D scene is difficult, and (4) the release of commercial 3D data may encounter copyright issue. This paper presents MINERVAS, a Massive INterior EnviRonments VirtuAl Synthesis system, to facilitate the 3D scene modification and the 2D image synthesis for various vision tasks. In particular, we design a programmable pipeline with Domain-Specific Language, allowing users to (1) select scenes from the commercial indoor scene database, (2) synthesize scenes for different tasks with customized rules, and (3) render various imagery data, such as visual color, geometric structures, semantic label. Our system eases the difficulty of customizing massive numbers of scenes for different tasks and relieves users from manipulating fine-grained scene configurations by providing user-controllable randomness using multi-level samplers. Most importantly, it empowers users to access commercial scene databases with millions of indoor scenes and protects the copyright of core data assets, e.g., 3D CAD models. We demonstrate the validity and flexibility of our system by using our synthesized data to improve the performance on different kinds of computer vision tasks.
Abstract（参考訳）: データ駆動技術が急速に発展し、様々なコンピュータビジョンタスクにおいてデータが重要な役割を担ってきた。様々な問題に対処するために、多くの現実的な合成データセットが提案されている。しかし,(1)データセットの作成は通常,手作業による面倒なプロセスであり,(2)ほとんどのデータセットは1つの特定のタスクのためにのみ設計されており,(3)3Dシーンの変更やランダム化は困難であり,(4)商用3Dデータのリリースは著作権問題に直面する可能性がある。本稿では,大規模室内環境仮想合成システムである minervas について,視覚課題に対する3次元シーンの修正と2次元画像合成を容易にすることを目的とする。特に,ドメイン特化言語を用いたプログラム可能なパイプラインを設計し,(1)市販屋内シーンデータベースからシーンを選択すること,(2)カスタマイズされたルールで異なるタスクのシーンを合成すること,(3)視覚色,幾何学的構造,セマンティックラベルなどの様々な画像データを描画することなどが可能である。本システムでは,タスクごとに多数のシーンをカスタマイズすることの難しさを軽減し,マルチレベルサンプリングシステムを用いてユーザ制御可能なランダム性を提供することにより,きめ細かいシーン構成の操作を省く。最も重要なことは、ユーザーが数百万の屋内シーンを持つ商用シーンデータベースにアクセスし、コアデータ資産、例えば3DCADモデルの著作権を保護することである。本稿では,様々なコンピュータビジョンタスクの性能を向上させるために,合成データを用いてシステムの有効性と柔軟性を示す。

関連論文リスト

Video Perception Models for 3D Scene Synthesis [109.5543506037003]
VIPSceneは、ビデオ生成モデルにおける3D物理世界のエンコードされたコモンセンス知識を利用する新しいフレームワークである。 VIPSceneはビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルをシームレスに統合し、シーン内の各オブジェクトを意味的かつ幾何学的に分析する。
論文参考訳（メタデータ） (2025-06-25T16:40:17Z)
HuSc3D: Human Sculpture dataset for 3D object reconstruction [0.0]
HuSc3Dは、3D再構成モデルの厳密なベンチマークのために、現実的な取得課題下で特別に設計された、新しいデータセットである。我々のデータセットは、複雑な穿孔と最小限のテクスチャと色の変化を特徴とする、非常に詳細で完全に白い6つの彫刻を特徴としている。
論文参考訳（メタデータ） (2025-06-09T10:47:02Z)
CFSynthesis: Controllable and Free-view 3D Human Video Synthesis [57.561237409603066]
CFSynthesisは、カスタマイズ可能な属性で高品質なヒューマンビデオを生成するための新しいフレームワークである。本手法はテクスチャ-SMPLに基づく表現を利用して,自由視点における一貫した,安定したキャラクタの出現を保証する。複数のデータセットの結果から,複雑な人間のアニメーションにおいて,CFS合成が最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-12-15T05:57:36Z)
Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文参考訳（メタデータ） (2024-12-02T11:33:55Z)
A transition towards virtual representations of visual scenes [1.4201040196058878]
視覚的シーン理解は、視覚データから意味のある情報を抽出することを目的とした、コンピュータビジョンの基本的なタスクである。本稿では3次元仮想合成に向けた視覚的シーン理解と記述の課題に対処するアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-10-10T14:41:04Z)
3D Vision and Language Pretraining with Large-Scale Synthetic Data [28.45763758308814]
3D Vision-Language Pre-Trainingの目的は、3Dシーンを自然言語でブリッジできるプリトレインモデルを提供することだ。 SynVL3Dは10Kの屋内シーンと1Mのオブジェクト、ビュー、ルームレベルでの記述を備えた総合的な合成シーンテキストコーパスである。本稿では、下流タスクの微調整プロセスにおけるドメインシフトに対応するために、合成から現実へのドメイン適応を提案する。
論文参考訳（メタデータ） (2024-07-08T16:26:52Z)
Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。 1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文参考訳（メタデータ） (2024-06-25T10:20:44Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
HyperDreamer: Hyper-Realistic 3D Content Generation and Editing from a Single Image [94.11473240505534]
一つの画像から3Dコンテンツを作成するためのツールであるHyperDreamerを紹介します。ユーザーは、結果の3Dコンテンツをフル範囲から閲覧、レンダリング、編集できないため、ポストジェネレーションの使用には十分である。高分解能なテクスチャとユーザフレンドリーな編集が可能な領域認識素材のモデリングにおけるHyperDreamerの有効性を実証する。
論文参考訳（メタデータ） (2023-12-07T18:58:09Z)
DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文参考訳（メタデータ） (2023-11-18T21:58:28Z)
DORSal: Diffusion for Object-centric Representations of Scenes et al [28.181157214966493]
最近の3Dシーン理解の進歩は、多様なシーンの大きなデータセットにわたる表現のスケーラブルな学習を可能にする。本研究では,凍結したオブジェクト中心のスロットベースのシーン表現を条件とした3次元シーン生成にビデオ拡散アーキテクチャを適用したDORSalを提案する。
論文参考訳（メタデータ） (2023-06-13T18:32:35Z)
CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文参考訳（メタデータ） (2023-05-25T17:39:13Z)
SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文参考訳（メタデータ） (2023-04-28T14:39:22Z)
Equivariant Neural Rendering [22.95150913645939]
本稿では,3次元の監督なしに画像から直接ニューラルシーン表現を学習するためのフレームワークを提案する。我々の重要な洞察は、学習された表現が本物の3Dシーンのように変換されることを保証することで、3D構造を課すことである。私たちの定式化によって、推論に数分を要するモデルに匹敵する結果を得ながら、リアルタイムでシーンを推測および描画することが可能になります。
論文参考訳（メタデータ） (2020-06-13T12:25:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。