論文の概要: StretchBEV: Stretching Future Instance Prediction Spatially and
Temporally
- arxiv url: http://arxiv.org/abs/2203.13641v1
- Date: Fri, 25 Mar 2022 13:28:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 17:45:26.733775
- Title: StretchBEV: Stretching Future Instance Prediction Spatially and
Temporally
- Title(参考訳): stretchbev: stretching future instance prediction の空間的および時間的予測
- Authors: Adil Kaan Akan, Fatma G\"uney
- Abstract要約: 自動運転車では、車を取り巻くすべてのエージェントの位置と動きから未来を予測することが、計画にとって重要な要件である。
近年,複数のカメラから知覚されるリッチな感覚情報を小型の鳥眼ビュー表現に融合させて予測を行うことにより,知覚と予測の新たな共同定式化が進んでいる。
しかし、将来の予測の質は、複数の妥当な予測のために、より長い時間的地平線に拡張しながら、時間とともに劣化する。
本研究では,将来の予測におけるこのような不確実性に時間的モデルを用いて対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In self-driving, predicting future in terms of location and motion of all the
agents around the vehicle is a crucial requirement for planning. Recently, a
new joint formulation of perception and prediction has emerged by fusing rich
sensory information perceived from multiple cameras into a compact bird's-eye
view representation to perform prediction. However, the quality of future
predictions degrades over time while extending to longer time horizons due to
multiple plausible predictions. In this work, we address this inherent
uncertainty in future predictions with a stochastic temporal model. Our model
learns temporal dynamics in a latent space through stochastic residual updates
at each time step. By sampling from a learned distribution at each time step,
we obtain more diverse future predictions that are also more accurate compared
to previous work, especially stretching both spatially further regions in the
scene and temporally over longer time horizons. Despite separate processing of
each time step, our model is still efficient through decoupling of the learning
of dynamics and the generation of future predictions.
- Abstract(参考訳): 自動運転車では、周囲のエージェントの位置と動きから未来を予測することが、計画にとって重要な要件である。
近年,複数のカメラから知覚されるリッチな感覚情報を,小型の鳥の目視表現に融合して予測を行うことで,知覚と予測の新しい定式化が進められている。
しかし、将来の予測の質は時間とともに低下し、複数の可能な予測によってより長い時間軸に拡張される。
本研究では, 確率的時間モデルを用いて, 将来の予測における本質的な不確実性に対処する。
本モデルは,各時間ステップにおける確率的残差更新により,潜時空間の時間ダイナミクスを学習する。
学習した各段階の分布から抽出することにより,従来よりも精度のよい将来予測が得られ,特に空間的により広い領域と時間的に長い時間的地平線を延ばすことが可能である。
各ステップの別々の処理にもかかわらず、我々のモデルは力学の学習と将来の予測の生成を分離することで効率的である。
関連論文リスト
- Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation [17.4088244981231]
長期的な行動予測は、自律運転や人間とロボットの相互作用など、多くのアプリケーションにとって重要な課題となっている。
本稿では,Gated Temporal Diffusion (GTD) ネットワークを提案する。
我々のモデルは、Breakfast、Ambly101、50Saladsの両方の決定論的設定で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-07-16T17:48:05Z) - HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention [76.37139809114274]
HPNetは、新しい動的軌道予測手法である。
逐次予測間の動的関係を自動的に符号化する履歴予測アテンションモジュールを提案する。
私たちのコードはhttps://github.com/XiaolongTang23/HPNetで利用可能です。
論文 参考訳(メタデータ) (2024-04-09T14:42:31Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early
Intent Prediction [3.158346511479111]
歩行者の早期意図予測に焦点をあて,都市景観の現在の観察から,街路に近づく歩行者の今後の活動を予測する。
提案手法は,過去の観測を符号化し,予測時間が異なる複数の予測を生成するマルチモーダルトランスフォーマに基づいている。
論文 参考訳(メタデータ) (2022-10-26T13:47:23Z) - Graph-based Spatial Transformer with Memory Replay for Multi-future
Pedestrian Trajectory Prediction [13.466380808630188]
歴史的軌跡に基づく複数経路の予測モデルを提案する。
提案手法は,空間情報を利用するとともに,時間的に矛盾した軌道を補正することができる。
実験により,提案手法は,複数未来予測の最先端性能と,単一未来予測の競合結果が得られることを示した。
論文 参考訳(メタデータ) (2022-06-12T10:25:12Z) - Predicting Future Occupancy Grids in Dynamic Environment with
Spatio-Temporal Learning [63.25627328308978]
本稿では,将来の占有予測を生成するための時間的予測ネットワークパイプラインを提案する。
現在のSOTAと比較して、我々の手法は3秒の長い水平線での占有を予測している。
我々は、さらなる研究を支援するために、nulisに基づくグリッド占有データセットを公開します。
論文 参考訳(メタデータ) (2022-05-06T13:45:32Z) - Learning Future Object Prediction with a Spatiotemporal Detection
Transformer [1.1543275835002982]
我々は、未来のオブジェクトを直接出力するように検出変換器を訓練する。
既存のトランスフォーマーを2つの方法で拡張し、シーンダイナミクスをキャプチャします。
我々の最終アプローチは、力学を捉えることを学び、100ミリ秒の予測地平線をオラクルと同等に予測する。
論文 参考訳(メタデータ) (2022-04-21T17:58:36Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - LookOut: Diverse Multi-Future Prediction and Planning for Self-Driving [139.33800431159446]
LookOutは、環境を共同で知覚し、センサーデータから様々な未来を予測するアプローチである。
本モデルでは,大規模自動運転データセットにおいて,より多様性があり,サンプル効率のよい動き予測を行う。
論文 参考訳(メタデータ) (2021-01-16T23:19:22Z) - Long Term Motion Prediction Using Keyposes [122.22758311506588]
長期的な予測を達成するには、瞬時に人間のポーズを予測する必要があると論じている。
このようなポーズを「キーポス」と呼び、後続のキーポスを線形に補間して近似する複素運動と呼ぶ。
このようなキープレースのシーケンスを学習することで,将来的には最大5秒まで,非常に長期にわたる動作を予測できることが示される。
論文 参考訳(メタデータ) (2020-12-08T20:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。