論文の概要: Probabilistic Future Prediction for Video Scene Understanding
- arxiv url: http://arxiv.org/abs/2003.06409v2
- Date: Fri, 17 Jul 2020 10:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:41:38.259901
- Title: Probabilistic Future Prediction for Video Scene Understanding
- Title(参考訳): 映像シーン理解のための確率論的未来予測
- Authors: Anthony Hu, Fergal Cotter, Nikhil Mohan, Corina Gurau, Alex Kendall
- Abstract要約: 本稿では,ビデオからの確率論的未来予測のための新しいディープラーニングアーキテクチャを提案する。
我々は、未来の意味論、複雑な現実世界の都市シーンの動きを予測し、この表現を使って自動運転車を制御する。
- 参考スコア(独自算出の注目度): 11.236856606065514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel deep learning architecture for probabilistic future
prediction from video. We predict the future semantics, geometry and motion of
complex real-world urban scenes and use this representation to control an
autonomous vehicle. This work is the first to jointly predict ego-motion,
static scene, and the motion of dynamic agents in a probabilistic manner, which
allows sampling consistent, highly probable futures from a compact latent
space. Our model learns a representation from RGB video with a spatio-temporal
convolutional module. The learned representation can be explicitly decoded to
future semantic segmentation, depth, and optical flow, in addition to being an
input to a learnt driving policy. To model the stochasticity of the future, we
introduce a conditional variational approach which minimises the divergence
between the present distribution (what could happen given what we have seen)
and the future distribution (what we observe actually happens). During
inference, diverse futures are generated by sampling from the present
distribution.
- Abstract(参考訳): 本稿では,ビデオからの確率的未来予測のための新しいディープラーニングアーキテクチャを提案する。
我々は、複雑な現実世界の都市シーンの将来の意味、幾何学、動きを予測し、この表現を用いて自動運転車を制御する。
この研究は、エゴモーション、静的シーン、および動的エージェントの運動を確率論的に共同で予測し、コンパクトな潜在空間から一貫した非常に予測可能な未来をサンプリングすることを可能にする。
我々のモデルは時空間畳み込みモジュールを用いてRGBビデオから表現を学習する。
学習された表現は、学習駆動ポリシーへの入力であることに加えて、将来の意味セグメンテーション、深さ、光フローに明示的に復号することができる。
将来の確率性をモデル化するために,現在の分布(私たちが見たことを考えると何が起こるか)と将来の分布(実際に観測されたこと)との相違を最小限に抑える条件付き変分アプローチを導入する。
推論中、現在の分布からのサンプリングによって様々な未来が生成される。
関連論文リスト
- GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。
GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。
本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T06:47:55Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - FIERY: Future Instance Prediction in Bird's-Eye View from Surround
Monocular Cameras [33.08698074581615]
単眼カメラによる鳥眼視における確率論的未来予測モデルFIERYを提案する。
我々のアプローチは、従来の自律運転スタックの知覚、センサー融合、予測コンポーネントを組み合わせています。
当社のモデルは,NuScenesとLyftのデータセットに基づく予測ベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-04-21T12:21:40Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - LookOut: Diverse Multi-Future Prediction and Planning for Self-Driving [139.33800431159446]
LookOutは、環境を共同で知覚し、センサーデータから様々な未来を予測するアプローチである。
本モデルでは,大規模自動運転データセットにおいて,より多様性があり,サンプル効率のよい動き予測を行う。
論文 参考訳(メタデータ) (2021-01-16T23:19:22Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。