論文の概要: Probabilistic Future Prediction for Video Scene Understanding
- arxiv url: http://arxiv.org/abs/2003.06409v2
- Date: Fri, 17 Jul 2020 10:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:41:38.259901
- Title: Probabilistic Future Prediction for Video Scene Understanding
- Title(参考訳): 映像シーン理解のための確率論的未来予測
- Authors: Anthony Hu, Fergal Cotter, Nikhil Mohan, Corina Gurau, Alex Kendall
- Abstract要約: 本稿では,ビデオからの確率論的未来予測のための新しいディープラーニングアーキテクチャを提案する。
我々は、未来の意味論、複雑な現実世界の都市シーンの動きを予測し、この表現を使って自動運転車を制御する。
- 参考スコア(独自算出の注目度): 11.236856606065514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel deep learning architecture for probabilistic future
prediction from video. We predict the future semantics, geometry and motion of
complex real-world urban scenes and use this representation to control an
autonomous vehicle. This work is the first to jointly predict ego-motion,
static scene, and the motion of dynamic agents in a probabilistic manner, which
allows sampling consistent, highly probable futures from a compact latent
space. Our model learns a representation from RGB video with a spatio-temporal
convolutional module. The learned representation can be explicitly decoded to
future semantic segmentation, depth, and optical flow, in addition to being an
input to a learnt driving policy. To model the stochasticity of the future, we
introduce a conditional variational approach which minimises the divergence
between the present distribution (what could happen given what we have seen)
and the future distribution (what we observe actually happens). During
inference, diverse futures are generated by sampling from the present
distribution.
- Abstract(参考訳): 本稿では,ビデオからの確率的未来予測のための新しいディープラーニングアーキテクチャを提案する。
我々は、複雑な現実世界の都市シーンの将来の意味、幾何学、動きを予測し、この表現を用いて自動運転車を制御する。
この研究は、エゴモーション、静的シーン、および動的エージェントの運動を確率論的に共同で予測し、コンパクトな潜在空間から一貫した非常に予測可能な未来をサンプリングすることを可能にする。
我々のモデルは時空間畳み込みモジュールを用いてRGBビデオから表現を学習する。
学習された表現は、学習駆動ポリシーへの入力であることに加えて、将来の意味セグメンテーション、深さ、光フローに明示的に復号することができる。
将来の確率性をモデル化するために,現在の分布(私たちが見たことを考えると何が起こるか)と将来の分布(実際に観測されたこと)との相違を最小限に抑える条件付き変分アプローチを導入する。
推論中、現在の分布からのサンプリングによって様々な未来が生成される。
関連論文リスト
- STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - PRISM: Probabilistic Real-Time Inference in Spatial World Models [52.878769723544615]
PRISMはエージェントの動きと視覚知覚の確率的生成モデルにおけるリアルタイムフィルタリングの手法である。
提案手法は10Hzでリアルタイムに動作し,小型・中型屋内環境における最先端SLAMと同等に精度が高い。
論文 参考訳(メタデータ) (2022-12-06T13:59:06Z) - Forecasting Future Instance Segmentation with Learned Optical Flow and
Warping [31.879514593973195]
本稿では,将来的なセマンティックセグメンテーションを予測するための光フローの利用について検討する。
Cityscapesデータセットの結果は、光フロー法の有効性を実証している。
論文 参考訳(メタデータ) (2022-11-15T11:01:12Z) - LOPR: Latent Occupancy PRediction using Generative Models [49.15687400958916]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。
本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-03T22:04:00Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - FIERY: Future Instance Prediction in Bird's-Eye View from Surround
Monocular Cameras [33.08698074581615]
単眼カメラによる鳥眼視における確率論的未来予測モデルFIERYを提案する。
我々のアプローチは、従来の自律運転スタックの知覚、センサー融合、予測コンポーネントを組み合わせています。
当社のモデルは,NuScenesとLyftのデータセットに基づく予測ベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-04-21T12:21:40Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - LookOut: Diverse Multi-Future Prediction and Planning for Self-Driving [139.33800431159446]
LookOutは、環境を共同で知覚し、センサーデータから様々な未来を予測するアプローチである。
本モデルでは,大規模自動運転データセットにおいて,より多様性があり,サンプル効率のよい動き予測を行う。
論文 参考訳(メタデータ) (2021-01-16T23:19:22Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。