論文の概要: GINA-3D: Learning to Generate Implicit Neural Assets in the Wild
- arxiv url: http://arxiv.org/abs/2304.02163v1
- Date: Tue, 4 Apr 2023 23:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 13:56:55.738441
- Title: GINA-3D: Learning to Generate Implicit Neural Assets in the Wild
- Title(参考訳): GINA-3D: 野生における神経集合生成の学習
- Authors: Bokui Shen, Xinchen Yan, Charles R. Qi, Mahyar Najibi, Boyang Deng,
Leonidas Guibas, Yin Zhou, Dragomir Anguelov
- Abstract要約: GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の520K以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において,本モデルが品質と多様性の最先端性を実現することを実証する。
- 参考スコア(独自算出の注目度): 27.785315367166284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling the 3D world from sensor data for simulation is a scalable way of
developing testing and validation environments for robotic learning problems
such as autonomous driving. However, manually creating or re-creating
real-world-like environments is difficult, expensive, and not scalable. Recent
generative model techniques have shown promising progress to address such
challenges by learning 3D assets using only plentiful 2D images -- but still
suffer limitations as they leverage either human-curated image datasets or
renderings from manually-created synthetic 3D environments. In this paper, we
introduce GINA-3D, a generative model that uses real-world driving data from
camera and LiDAR sensors to create realistic 3D implicit neural assets of
diverse vehicles and pedestrians. Compared to the existing image datasets, the
real-world driving setting poses new challenges due to occlusions,
lighting-variations and long-tail distributions. GINA-3D tackles these
challenges by decoupling representation learning and generative modeling into
two stages with a learned tri-plane latent structure, inspired by recent
advances in generative modeling of images. To evaluate our approach, we
construct a large-scale object-centric dataset containing over 520K images of
vehicles and pedestrians from the Waymo Open Dataset, and a new set of 80K
images of long-tail instances such as construction equipment, garbage trucks,
and cable cars. We compare our model with existing approaches and demonstrate
that it achieves state-of-the-art performance in quality and diversity for both
generated images and geometries.
- Abstract(参考訳): センサデータからシミュレーションのための3d世界をモデリングすることは、自動運転のようなロボット学習問題のためのテストと検証環境を開発するためのスケーラブルな方法である。
しかし、現実世界のような環境を手動で作り直したり作り直したりするのは難しく、高価で、スケーラブルではない。
最近の生成モデル技術は、豊富な2d画像のみを使用して3dアセットを学習することで、このような課題に対処するための有望な進歩を示している。
本稿では,カメラとLiDARセンサによる実世界の運転データを用いて,多様な車両や歩行者のリアルな3D暗黙的ニューラルアセットを作成する生成モデルGINA-3Dを紹介する。
既存の画像データセットと比較すると、実世界の運転設定は、閉塞、照明変数、ロングテール分布など、新たな課題をもたらす。
GINA-3Dは、画像の生成モデリングの最近の進歩に触発されて、表現学習と生成モデリングを学習された3面の潜在構造を持つ2段階に分離することで、これらの課題に取り組む。
このアプローチを評価するために,waymo open datasetから520万以上の車両および歩行者の画像を含む大規模オブジェクトセンタデータセットと,建設機器,ごみ収集車,ケーブルカーなどのロングテールインスタンスの80k画像セットを構築した。
我々は,本モデルと既存手法を比較し,生成画像とジオメトリの両面において,品質と多様性の最先端性能を実現することを示す。
関連論文リスト
- RGM: Reconstructing High-fidelity 3D Car Assets with Relightable 3D-GS Generative Model from a Single Image [30.049602796278133]
高品質な3Dカーアセットは、ビデオゲーム、自動運転、バーチャルリアリティーなど、さまざまなアプリケーションに欠かせない。
3Dオブジェクトの表現としてNeRFや3D-GSを利用する現在の3D生成法は、固定照明下でランベルティアンオブジェクトを生成する。
単一入力画像から3Dカー資産を自動生成する新しい3Dオブジェクト生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:54:03Z) - Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text [61.9973218744157]
実世界の3Dシーンと適応カメラトラジェクトリの両方を生成するように設計された,堅牢なオープンワールドテキスト・ツー・3D生成フレームワークであるDirector3Dを紹介する。
Director3Dは既存の手法よりも優れており、実世界の3D生成において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-06-25T14:42:51Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Using Adaptive Gradient for Texture Learning in Single-View 3D
Reconstruction [0.0]
3次元モデル再構築のための学習ベースのアプローチは、現代の応用によって注目を集めている。
本稿では,サンプリング画像のばらつきに基づいて予測座標の勾配を最適化し,新しいサンプリングアルゴリズムを提案する。
また,frechetインセプション距離(fid)を用いて学習における損失関数を形成し,レンダリング画像と入力画像とのギャップを橋渡しする。
論文 参考訳(メタデータ) (2021-04-29T07:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。