論文の概要: Learning Future Object Prediction with a Spatiotemporal Detection
Transformer
- arxiv url: http://arxiv.org/abs/2204.10321v1
- Date: Thu, 21 Apr 2022 17:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 13:00:46.775617
- Title: Learning Future Object Prediction with a Spatiotemporal Detection
Transformer
- Title(参考訳): 時空間検出変換器を用いた未来の物体予測
- Authors: Adam Tonderski, Joakim Johnander, Christoffer Petersson, and Kalle
{\AA}str\"om
- Abstract要約: 我々は、未来のオブジェクトを直接出力するように検出変換器を訓練する。
既存のトランスフォーマーを2つの方法で拡張し、シーンダイナミクスをキャプチャします。
我々の最終アプローチは、力学を捉えることを学び、100ミリ秒の予測地平線をオラクルと同等に予測する。
- 参考スコア(独自算出の注目度): 1.1543275835002982
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We explore future object prediction -- a challenging problem where all
objects visible in a future video frame are to be predicted. We propose to
tackle this problem end-to-end by training a detection transformer to directly
output future objects. In order to make accurate predictions about the future,
it is necessary to capture the dynamics in the scene, both of other objects and
of the ego-camera. We extend existing detection transformers in two ways to
capture the scene dynamics. First, we experiment with three different
mechanisms that enable the model to spatiotemporally process multiple frames.
Second, we feed ego-motion information to the model via cross-attention. We
show that both of these cues substantially improve future object prediction
performance. Our final approach learns to capture the dynamics and make
predictions on par with an oracle for 100 ms prediction horizons, and
outperform baselines for longer prediction horizons.
- Abstract(参考訳): 将来のビデオフレームで見えるすべてのオブジェクトが予測されるという難しい問題である、将来のオブジェクト予測について検討する。
本稿では、検出変換器を訓練して、未来のオブジェクトを直接出力することで、この問題を解決することを提案する。
未来を正確に予測するためには、他の物体とエゴカメラの両方のシーンのダイナミクスを捉える必要がある。
既存の検出トランスを2つの方法で拡張し,シーンダイナミクスをキャプチャする。
まず,複数のフレームを時空間的に処理できる3つのメカニズムを実験する。
第2に,エゴモーション情報をクロスアテンションによってモデルに与える。
どちらも将来のオブジェクト予測性能を大幅に向上させることを示す。
最終アプローチでは,100msの予測地平線において,力学を捉え,オラクルに匹敵する予測を行い,予測地平線を長くするベースラインを上回っている。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early
Intent Prediction [3.158346511479111]
歩行者の早期意図予測に焦点をあて,都市景観の現在の観察から,街路に近づく歩行者の今後の活動を予測する。
提案手法は,過去の観測を符号化し,予測時間が異なる複数の予測を生成するマルチモーダルトランスフォーマに基づいている。
論文 参考訳(メタデータ) (2022-10-26T13:47:23Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - StretchBEV: Stretching Future Instance Prediction Spatially and
Temporally [0.0]
自動運転車では、車を取り巻くすべてのエージェントの位置と動きから未来を予測することが、計画にとって重要な要件である。
近年,複数のカメラから知覚されるリッチな感覚情報を小型の鳥眼ビュー表現に融合させて予測を行うことにより,知覚と予測の新たな共同定式化が進んでいる。
しかし、将来の予測の質は、複数の妥当な予測のために、より長い時間的地平線に拡張しながら、時間とともに劣化する。
本研究では,将来の予測におけるこのような不確実性に時間的モデルを用いて対処する。
論文 参考訳(メタデータ) (2022-03-25T13:28:44Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。