論文の概要: Future Urban Scenes Generation Through Vehicles Synthesis
- arxiv url: http://arxiv.org/abs/2007.00323v3
- Date: Fri, 22 Oct 2021 07:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 23:38:18.971168
- Title: Future Urban Scenes Generation Through Vehicles Synthesis
- Title(参考訳): 自動車合成による都市景観の創出
- Authors: Alessandro Simoni and Luca Bergamini and Andrea Palazzi and Simone
Calderara and Rita Cucchiara
- Abstract要約: 本研究では,都市景観の視覚的外観を予測するためのディープラーニングパイプラインを提案する。
ループには解釈可能な情報が含まれ、各アクターは独立してモデル化される。
従来のCityFlowのシーン生成手法に比べて,このアプローチが優れていることを示す。
- 参考スコア(独自算出の注目度): 90.1731992199415
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work we propose a deep learning pipeline to predict the visual future
appearance of an urban scene. Despite recent advances, generating the entire
scene in an end-to-end fashion is still far from being achieved. Instead, here
we follow a two stages approach, where interpretable information is included in
the loop and each actor is modelled independently. We leverage a per-object
novel view synthesis paradigm; i.e. generating a synthetic representation of an
object undergoing a geometrical roto-translation in the 3D space. Our model can
be easily conditioned with constraints (e.g. input trajectories) provided by
state-of-the-art tracking methods or by the user itself. This allows us to
generate a set of diverse realistic futures starting from the same input in a
multi-modal fashion. We visually and quantitatively show the superiority of
this approach over traditional end-to-end scene-generation methods on CityFlow,
a challenging real world dataset.
- Abstract(参考訳): 本研究では,都市景観の視覚的な将来像を予測するための深層学習パイプラインを提案する。
最近の進歩にもかかわらず、エンド・ツー・エンドの方法でシーン全体を生成することは、まだ達成されていない。
ここでは、ループに解釈可能な情報が含まれ、各アクターが独立してモデル化される2段階のアプローチに従う。
我々は,3次元空間における幾何学的ロト変換を行うオブジェクトの合成表現を生成する,オブジェクトごとの新規なビュー合成パラダイムを活用する。
我々のモデルは、最先端のトラッキング手法やユーザ自身によって提供される制約(例えば、入力軌跡)で簡単に条件付けできる。
これにより、マルチモーダルな方法で同じ入力から始まる、多様な現実的な未来を生成できます。
課題のある実世界のデータセットであるCityFlow上で、従来のエンドツーエンドのシーン生成手法よりも、このアプローチが優れていることを視覚的に定量的に示す。
関連論文リスト
- Urban Scene Diffusion through Semantic Occupancy Map [49.20779809250597]
UrbanDiffusionは、Bird's-Eye View (BEV)マップに条件付き3次元拡散モデルである。
我々のモデルは,潜在空間内のシーンレベルの構造の分布を学習する。
実世界の運転データセットをトレーニングした後、我々のモデルは多様な都市シーンを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T11:54:35Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z) - Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文 参考訳(メタデータ) (2022-03-20T13:06:15Z) - Long-term Human Motion Prediction with Scene Context [60.096118270451974]
人間の動きを予測するための新しい3段階フレームワークを提案する。
提案手法はまず,まず複数の人間の動作目標を抽出し,各目標に向けて3次元人間の動作経路を計画し,最後に各経路に続く3次元人間のポーズシーケンスを予測する。
論文 参考訳(メタデータ) (2020-07-07T17:59:53Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。