論文の概要: Dynamic and Static Context-aware LSTM for Multi-agent Motion Prediction
- arxiv url: http://arxiv.org/abs/2008.00777v1
- Date: Mon, 3 Aug 2020 11:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:32:10.816430
- Title: Dynamic and Static Context-aware LSTM for Multi-agent Motion Prediction
- Title(参考訳): 多エージェント動作予測のための動的・静的文脈認識LSTM
- Authors: Chaofan Tao, Qinhong Jiang, Lixin Duan, Ping Luo
- Abstract要約: 本稿では,動的および静的な文脈認識型動作予測器(DSCMP)の新たな機構であるtextiti.e.を設計する。
豊富な情報をLong-Short-term-Memory (LSTM)に統合する。
エージェント間の動的相互作用を、空間的位置と時間的コヒーレンスの両方を学ぶことによってモデル化する。
潜在変数を推論することでシーンのコンテキストをキャプチャし、意味のあるセマンティックなシーンレイアウトを持つマルチモーダルな予測を可能にする。
- 参考スコア(独自算出の注目度): 40.20696709103593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent motion prediction is challenging because it aims to foresee the
future trajectories of multiple agents (\textit{e.g.} pedestrians)
simultaneously in a complicated scene. Existing work addressed this challenge
by either learning social spatial interactions represented by the positions of
a group of pedestrians, while ignoring their temporal coherence (\textit{i.e.}
dependencies between different long trajectories), or by understanding the
complicated scene layout (\textit{e.g.} scene segmentation) to ensure safe
navigation. However, unlike previous work that isolated the spatial
interaction, temporal coherence, and scene layout, this paper designs a new
mechanism, \textit{i.e.}, Dynamic and Static Context-aware Motion Predictor
(DSCMP), to integrates these rich information into the long-short-term-memory
(LSTM). It has three appealing benefits. (1) DSCMP models the dynamic
interactions between agents by learning both their spatial positions and
temporal coherence, as well as understanding the contextual scene layout.(2)
Different from previous LSTM models that predict motions by propagating hidden
features frame by frame, limiting the capacity to learn correlations between
long trajectories, we carefully design a differentiable queue mechanism in
DSCMP, which is able to explicitly memorize and learn the correlations between
long trajectories. (3) DSCMP captures the context of scene by inferring latent
variable, which enables multimodal predictions with meaningful semantic scene
layout. Extensive experiments show that DSCMP outperforms state-of-the-art
methods by large margins, such as 9.05\% and 7.62\% relative improvements on
the ETH-UCY and SDD datasets respectively.
- Abstract(参考訳): 複雑なシーンで複数のエージェント(例えば歩行者)の将来の軌道を同時に予測することを目的としているため、マルチエージェント動作予測は困難である。
既存の作業は、歩行者のグループの位置で表される社会的空間的相互作用を学習し、時間的コヒーレンスを無視した(\textit{i.e.} )か、複雑なシーンレイアウト(\textit{e.} シーンセグメンテーション)を理解して安全なナビゲーションを確保することによって、この問題に対処した。
しかし、空間的相互作用、時間的コヒーレンス、シーンレイアウトを分離した以前の研究とは異なり、この論文では、これらのリッチな情報を長期記憶(LSTM)に統合するための新しいメカニズムである「textit{i.e.}, Dynamic and Static Context-aware Motion Predictor (DSCMP)」を設計した。
3つの利点がある。
1) DSCMPは, 空間的位置と時間的コヒーレンスの両方を学ぶことによってエージェント間の動的相互作用をモデル化し, 文脈的シーンレイアウトを理解する。
2) フレーム単位で隠れた特徴を伝達して動きを予測する従来のLSTMモデルと異なり,長い軌跡間の相関関係を学習する能力を制限するため,長い軌跡間の相関関係を明示的に記憶し学習できるDSCMPの異なるキュー機構を慎重に設計する。
(3)DSCMPは、意味のあるシーンレイアウトを持つマルチモーダル予測を可能にする潜在変数を推論することで、シーンのコンテキストをキャプチャする。
大規模な実験により、DSCMPはETH-UCYデータセットとSDDデータセットにおける9.05\%と7.62\%の相対的な改善など、最先端の手法よりも大きなマージンで優れていることが示された。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Triplet Attention Transformer for Spatiotemporal Predictive Learning [9.059462850026216]
本稿では,フレーム間動的特徴とフレーム内静的特徴の両方を捉えるために,革新的な三重項注意変換器を提案する。
このモデルはトリプレット・アテンション・モジュール(TAM)を組み込んだもので、時間、空間、チャネル次元における自己アテンションのメカニズムを探求することで、従来のリカレント・ユニットを置き換える。
論文 参考訳(メタデータ) (2023-10-28T12:49:33Z) - Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph
Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。
本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文 参考訳(メタデータ) (2023-09-23T02:40:28Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。
具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。
提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文 参考訳(メタデータ) (2021-04-08T06:48:02Z) - Exploring Dynamic Context for Multi-path Trajectory Prediction [33.66335553588001]
動的コンテキストネットワーク(DCENet)という新しいフレームワークを提案する。
本フレームワークでは,エージェント間の空間的コンテキストを自己注意型アーキテクチャを用いて探索する。
学習した空間的時間的文脈に基づいて、各エージェントに対する将来の軌跡のセットを条件付きで予測する。
論文 参考訳(メタデータ) (2020-10-30T13:39:20Z) - Graph2Kernel Grid-LSTM: A Multi-Cued Model for Pedestrian Trajectory
Prediction by Learning Adaptive Neighborhoods [10.57164270098353]
本稿では,歩行者地区がデザインに適応しうることを提案することによって,インタラクションモデリングの新しい視点を示す。
我々のモデルは、いくつかの公開テストされた監視ビデオに類似した特徴を照合する最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-07-03T19:05:48Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。