論文の概要: VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2407.06516v1
- Date: Tue, 9 Jul 2024 03:09:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:25:27.820214
- Title: VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving
- Title(参考訳): VQA-Diff:自律走行におけるゼロショット画像-3次元車両アセット生成のためのVQAと拡散の爆発
- Authors: Yibo Liu, Zheyuan Yang, Guile Wu, Yuan Ren, Kejian Lin, Bingbing Liu, Yang Liu, Jinjun Shan,
- Abstract要約: VQA-Diff(VQA-Diff)は、車載画像を活用し、自動運転車のための3D車両資産を作成する新しいフレームワークである。
VQA-Diffは、VQA(Visual Question Answering)モデルにおけるLarge Language Modelから受け継いだ実世界の知識を利用して、堅牢なゼロショット予測を行う。
我々はPascal 3D+を含む様々なデータセットの実験を行い、VQA-Diffが既存の最先端手法よりも質的かつ定量的に優れていることを示す。
- 参考スコア(独自算出の注目度): 25.03216574230919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating 3D vehicle assets from in-the-wild observations is crucial to autonomous driving. Existing image-to-3D methods cannot well address this problem because they learn generation merely from image RGB information without a deeper understanding of in-the-wild vehicles (such as car models, manufacturers, etc.). This leads to their poor zero-shot prediction capability to handle real-world observations with occlusion or tricky viewing angles. To solve this problem, in this work, we propose VQA-Diff, a novel framework that leverages in-the-wild vehicle images to create photorealistic 3D vehicle assets for autonomous driving. VQA-Diff exploits the real-world knowledge inherited from the Large Language Model in the Visual Question Answering (VQA) model for robust zero-shot prediction and the rich image prior knowledge in the Diffusion model for structure and appearance generation. In particular, we utilize a multi-expert Diffusion Models strategy to generate the structure information and employ a subject-driven structure-controlled generation mechanism to model appearance information. As a result, without the necessity to learn from a large-scale image-to-3D vehicle dataset collected from the real world, VQA-Diff still has a robust zero-shot image-to-novel-view generation ability. We conduct experiments on various datasets, including Pascal 3D+, Waymo, and Objaverse, to demonstrate that VQA-Diff outperforms existing state-of-the-art methods both qualitatively and quantitatively.
- Abstract(参考訳): 飛行中の観察から3D車両の資産を生成することは、自動運転にとって不可欠である。
既存の画像から3Dの手法では、車載車(車種、メーカーなど)の深い理解なしに画像RGB情報から生成を学習するため、この問題にうまく対処できない。
これにより、隠蔽またはトリッキーな視角で現実世界の観測を処理できる、ゼロショット予測能力が貧弱になる。
この問題を解決するため,本研究では,車載画像を利用した自律走行用写真リアリスティック3D車両アセット作成のための新しいフレームワークであるVQA-Diffを提案する。
VQA-Diffは、視覚質問回答(VQA)モデルにおける大言語モデルから受け継がれた実世界の知識を利用して、堅牢なゼロショット予測と、構造と外観生成のための拡散モデルにおけるリッチイメージ事前知識を利用する。
特に,マルチエキスパート拡散モデルを用いて構造情報を生成し,主観駆動型構造制御生成機構を用いて外観情報をモデル化する。
結果として、VQA-Diffは、現実世界から収集した大規模な画像から3Dの車両のデータセットから学ぶ必要がなく、堅牢なゼロショット画像からノーベルビューの生成能力を持っている。
我々はPascal 3D+、Waymo、Objaverseなどのさまざまなデータセットで実験を行い、VQA-Diffが定性的かつ定量的に既存の最先端手法より優れていることを示す。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。
生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。
本研究の結果は, 自律運転シミュレーション等の可能性を示すとともに, フレームワークの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z) - Attention Mechanism for Contrastive Learning in GAN-based Image-to-Image
Translation [3.90801108629495]
本稿では,異なる領域にまたがって高品質な画像を生成可能なGANモデルを提案する。
実世界から取得した画像データと3Dゲームからのシミュレーション画像を用いて、Contrastive Learningを利用してモデルを自己指導的に訓練する。
論文 参考訳(メタデータ) (2023-02-23T14:23:23Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。