論文の概要: Neural World Models for Computer Vision
- arxiv url: http://arxiv.org/abs/2306.09179v1
- Date: Thu, 15 Jun 2023 14:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 14:15:37.902977
- Title: Neural World Models for Computer Vision
- Title(参考訳): コンピュータビジョンのためのニューラルワールドモデル
- Authors: Anthony Hu
- Abstract要約: 深層ニューラルネットワークによってパラメータ化された世界モデルと政策をトレーニングするためのフレームワークを提案する。
我々は、幾何学、意味論、動きといった重要なコンピュータビジョンの概念を活用して、複雑な都市運転シーンに世界モデルを拡張する。
都会の運転環境における静的シーン, 動的シーン, エゴビヘイビアを共同で予測できる。
- 参考スコア(独自算出の注目度): 2.741266294612776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans navigate in their environment by learning a mental model of the world
through passive observation and active interaction. Their world model allows
them to anticipate what might happen next and act accordingly with respect to
an underlying objective. Such world models hold strong promises for planning in
complex environments like in autonomous driving. A human driver, or a
self-driving system, perceives their surroundings with their eyes or their
cameras. They infer an internal representation of the world which should: (i)
have spatial memory (e.g. occlusions), (ii) fill partially observable or noisy
inputs (e.g. when blinded by sunlight), and (iii) be able to reason about
unobservable events probabilistically (e.g. predict different possible
futures). They are embodied intelligent agents that can predict, plan, and act
in the physical world through their world model. In this thesis we present a
general framework to train a world model and a policy, parameterised by deep
neural networks, from camera observations and expert demonstrations. We
leverage important computer vision concepts such as geometry, semantics, and
motion to scale world models to complex urban driving scenes.
First, we propose a model that predicts important quantities in computer
vision: depth, semantic segmentation, and optical flow. We then use 3D geometry
as an inductive bias to operate in the bird's-eye view space. We present for
the first time a model that can predict probabilistic future trajectories of
dynamic agents in bird's-eye view from 360{\deg} surround monocular cameras
only. Finally, we demonstrate the benefits of learning a world model in
closed-loop driving. Our model can jointly predict static scene, dynamic scene,
and ego-behaviour in an urban driving environment.
- Abstract(参考訳): 人間は受動的観察と活発な相互作用を通じて世界のメンタルモデルを学ぶことで環境をナビゲートする。
彼らの世界モデルは、次に起こる可能性のあることを予測し、基礎となる目的に対して行動することを可能にする。
このような世界モデルは、自動運転のような複雑な環境での計画に強い約束を持っています。
人間のドライバー(または自動運転システム)は、目またはカメラで周囲を知覚します。
彼らは、次の世界の内部表現を推論する。
(i)空間記憶(例えば、咬合)を有する。
(ii)部分的に観察可能な、または騒がしい入力(例えば、日光で盲目されたとき)を満たし、
(iii)観測不能な事象を確率的に推論することができる(例えば、異なる可能性のある未来を予測する)。
それらは、自身の世界モデルを通じて物理的な世界で予測、計画、行動できる知的エージェントを具現化したものだ。
本論文では,ディープニューラルネットワークによってパラメータ化される世界モデルとポリシーを,カメラ観測や専門家による実証から訓練するための汎用フレームワークを提案する。
我々は、幾何学、セマンティクス、運動といった重要なコンピュータビジョンの概念を利用して、複雑な都市運転シーンに世界モデルをスケールする。
まず,深度,セマンティックセグメンテーション,光学フローといったコンピュータビジョンの重要な量を予測するモデルを提案する。
次に、鳥の目視空間で操作するために誘導バイアスとして3D幾何を用いる。
我々は,360{\deg} がモノクラーカメラのみを取り囲む鳥眼ビューにおける動的エージェントの確率論的将来の軌跡を予測できるモデルを初めて提示する。
最後に,クローズドループ運転における世界モデル学習の利点を示す。
本モデルでは,都市走行環境における静的シーン,動的シーン,エゴ動作を共同で予測できる。
関連論文リスト
- Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
本研究では, 速度, 操舵角度, 軌道, 指令などの柔軟な動作条件を世界モデルに注入することを提案する。
nuScenesデータセットの実験により,本手法は可塑性かつ制御可能な4D占有率を生成可能であることが示された。
論文 参考訳(メタデータ) (2024-08-26T11:53:09Z) - Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.15395503285804]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している
本調査では,世界モデルの最新動向を包括的に調査する。
我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-05-06T14:37:07Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z) - OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving [67.49461023261536]
我々は3D Occupancyの世界で世界モデルOccWorldを学ぶための新しいフレームワークを学ぶ。
我々は同時にエゴカーの動きと周囲のシーンの進化を予測する。
OccWorldはインスタンスとマップを使わずに競合する計画結果を生成する。
論文 参考訳(メタデータ) (2023-11-27T17:59:41Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Model-Based Imitation Learning for Urban Driving [26.782783239210087]
MILE: 世界のモデルと自律運転のポリシーを共同で学習するためのモデルに基づくImitation LEarningアプローチを提案する。
本モデルでは, 都市運転データのオフラインコーパスを用いて, 環境とのオンラインインタラクションを伴わない訓練を行った。
我々のアプローチは、都市運転環境における静的シーン、ダイナミックシーン、エゴビヘイビアをモデル化する最初のカメラのみの手法である。
論文 参考訳(メタデータ) (2022-10-14T11:59:46Z) - NavDreams: Towards Camera-Only RL Navigation Among Humans [35.57943738219839]
我々は,アタリゲームにおけるモデリングと学習の方針を示す世界モデルの概念が,カメラによるナビゲーション問題にも適用できるかどうかを考察する。
我々は、ロボットが目標を達成するために衝突することなく、静的で動く人間を通り過ぎなければならないシミュレーション環境を作成する。
現状の手法はナビゲーション問題の解決に成功でき、将来の画像系列の夢のような予測を生成することができる。
論文 参考訳(メタデータ) (2022-03-23T09:46:44Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z) - 3D Dynamic Scene Graphs: Actionable Spatial Perception with Places,
Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。
3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-02-15T00:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。