論文の概要: Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative
Radiance Field
- arxiv url: http://arxiv.org/abs/2304.03526v1
- Date: Fri, 7 Apr 2023 07:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 12:45:03.660392
- Title: Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative
Radiance Field
- Title(参考訳): Lift3D: 2D GANから3D生成放射場へのリフティングによる3Dトレーニングデータの合成
- Authors: Leheng Li, Qing Lian, Luozhou Wang, Ningning Ma, Ying-Cong Chen
- Abstract要約: データ生成の目的を達成するために,逆2D-to-3D生成フレームワークであるLift3Dを提案する。
2D GANを3DオブジェクトNeRFに持ち上げることで、Lift3Dは生成されたオブジェクトの明示的な3D情報を提供する。
我々は、自律運転データセットを増強することで、我々のフレームワークの有効性を評価する。
- 参考スコア(独自算出の注目度): 16.15190186574068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work explores the use of 3D generative models to synthesize training
data for 3D vision tasks. The key requirements of the generative models are
that the generated data should be photorealistic to match the real-world
scenarios, and the corresponding 3D attributes should be aligned with given
sampling labels. However, we find that the recent NeRF-based 3D GANs hardly
meet the above requirements due to their designed generation pipeline and the
lack of explicit 3D supervision. In this work, we propose Lift3D, an inverted
2D-to-3D generation framework to achieve the data generation objectives. Lift3D
has several merits compared to prior methods: (1) Unlike previous 3D GANs that
the output resolution is fixed after training, Lift3D can generalize to any
camera intrinsic with higher resolution and photorealistic output. (2) By
lifting well-disentangled 2D GAN to 3D object NeRF, Lift3D provides explicit 3D
information of generated objects, thus offering accurate 3D annotations for
downstream tasks. We evaluate the effectiveness of our framework by augmenting
autonomous driving datasets. Experimental results demonstrate that our data
generation framework can effectively improve the performance of 3D object
detectors. Project page: https://len-li.github.io/lift3d-web.
- Abstract(参考訳): 本研究では、3次元視覚タスクの訓練データを合成する3次元生成モデルについて検討する。
生成モデルの主な要件は、生成したデータは実世界のシナリオに合わせるためにフォトリアリスティックであり、対応する3D属性は、所定のサンプリングラベルと整合するべきであることである。
しかし、最近のNeRFベースの3D GANは、設計した生成パイプラインと明示的な3D監視の欠如のため、上記の要件を満たすことはほとんどない。
本研究では,データ生成目的を達成するための逆2d-to3d生成フレームワークlift3dを提案する。
1) 従来の3D GANとは異なり、出力解像度はトレーニング後に固定されるが、Lift3Dは高解像度とフォトリアリスティック出力で固有のカメラに一般化することができる。
2) 2D GANを3DオブジェクトNeRFに持ち上げることで、Lift3Dは生成されたオブジェクトの明示的な3D情報を提供し、下流タスクの正確な3Dアノテーションを提供する。
我々は、自律運転データセットの強化により、このフレームワークの有効性を評価する。
実験の結果,データ生成フレームワークが3次元物体検出の性能を効果的に向上できることが判明した。
プロジェクトページ: https://len-li.github.io/lift3d-web。
関連論文リスト
- Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text [61.9973218744157]
実世界の3Dシーンと適応カメラトラジェクトリの両方を生成するように設計された,堅牢なオープンワールドテキスト・ツー・3D生成フレームワークであるDirector3Dを紹介する。
Director3Dは既存の手法よりも優れており、実世界の3D生成において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-06-25T14:42:51Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - A Convolutional Architecture for 3D Model Embedding [1.3858051019755282]
入力として3Dモデルを扱うディープラーニングアーキテクチャを提案する。
埋め込み表現は3Dオブジェクトの類似性評価を扱うのに役立つセマンティック情報を伝えることを示した。
論文 参考訳(メタデータ) (2021-03-05T15:46:47Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。