論文の概要: JointMotion: Joint Self-Supervision for Joint Motion Prediction
- arxiv url: http://arxiv.org/abs/2403.05489v2
- Date: Wed, 23 Oct 2024 16:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:52:24.348961
- Title: JointMotion: Joint Self-Supervision for Joint Motion Prediction
- Title(参考訳): Joint Motion: 関節運動予測のためのジョイント・セルフ・スーパービジョン
- Authors: Royden Wagner, Omer Sahin Tas, Marvin Klemp, Carlos Fernandez,
- Abstract要約: JointMotionは、自動運転車における関節運動予測のための自己教師付き事前訓練手法である。
提案手法は,Wayformer,HPTR,Scene Transformerの各モデルにおける最終変位誤差を,それぞれ3%,8%,12%削減する。
- 参考スコア(独自算出の注目度): 10.44846560021422
- License:
- Abstract: We present JointMotion, a self-supervised pre-training method for joint motion prediction in self-driving vehicles. Our method jointly optimizes a scene-level objective connecting motion and environments, and an instance-level objective to refine learned representations. Scene-level representations are learned via non-contrastive similarity learning of past motion sequences and environment context. At the instance level, we use masked autoencoding to refine multimodal polyline representations. We complement this with an adaptive pre-training decoder that enables JointMotion to generalize across different environment representations, fusion mechanisms, and dataset characteristics. Notably, our method reduces the joint final displacement error of Wayformer, HPTR, and Scene Transformer models by 3\%, 8\%, and 12\%, respectively; and enables transfer learning between the Waymo Open Motion and the Argoverse 2 Motion Forecasting datasets. Code: https://github.com/kit-mrt/future-motion
- Abstract(参考訳): 自動運転車における関節運動予測のための自己教師付き事前学習手法であるJointMotionを提案する。
提案手法は,動作と環境を接続するシーンレベルの目的と,学習した表現を洗練するためのインスタンスレベルの目的とを協調的に最適化する。
シーンレベルの表現は、過去の動きシーケンスと環境コンテキストの非コントラスト類似性学習を通じて学習される。
インスタンスレベルでは、マスク付きオートエンコーディングを使用して多モードポリライン表現を洗練します。
We complement this with anaptive pre-training decoder which allow to generalize across different environment representations, fusion mechanism, and dataset characteristics。
特に,Wayformer,HPTR,Scene Transformerの各モデルの最終的な変位誤差を3\%,8\%,12\%削減し,Waymo Open MotionとArgoverse 2 Motion Forecastingデータセット間の移動学習を可能にする。
コード:https://github.com/kit-mrt/future-motion
関連論文リスト
- GITSR: Graph Interaction Transformer-based Scene Representation for Multi Vehicle Collaborative Decision-making [9.910230703889956]
本研究では,交通状態の空間的相互作用の効率的な表現とモデル化に焦点を当てた。
本研究では,グラフインタラクショントランスフォーマに基づくシーン表現のための効果的なフレームワークであるGITSRを提案する。
論文 参考訳(メタデータ) (2024-11-03T15:27:26Z) - SceneMotion: From Agent-Centric Embeddings to Scene-Wide Forecasts [13.202036465220766]
自動運転車は、環境と対話し安全な操作を計画するために、マルチモーダルな動き予測に頼っている。
我々は、複数の交通機関のシーンワイド・モーション・モードを予測するアテンションベースモデルであるSceneMotionを紹介する。
このモジュールは複数のエージェント中心の埋め込みからシーン全体の潜在空間を学習し、共同予測と相互作用モデリングを可能にする。
論文 参考訳(メタデータ) (2024-08-02T18:49:14Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Motion Transformer with Global Intention Localization and Local Movement
Refinement [103.75625476231401]
動き TRansformer (MTR) は、大域的意図の局所化と局所的な動きの洗練の合同最適化として、動き予測をモデル化する。
MTRは、限界運動予測と関節運動予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-09-27T16:23:14Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。
我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文 参考訳(メタデータ) (2020-07-23T14:31:25Z) - Cross Scene Prediction via Modeling Dynamic Correlation using Latent
Space Shared Auto-Encoders [6.530318792830862]
2つのシーンの非同期な履歴観測のセットを考えると、その目的はクロスシーンの予測器を学習することである。
遅延空間共有オートエンコーダを用いた動的相関のモデル化により,この問題の解法を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:08:23Z) - Collaborative Motion Prediction via Neural Motion Message Passing [37.72454920355321]
我々は,アクター間の対話を明示的にモデル化し,アクター間の対話の表現を学習するために,ニューラルモーションメッセージパッシング(NMMP)を提案する。
提案したNMMPに基づいて,歩行者設定と共同歩行者設定と車両設定の2つの設定に対して,動作予測システムを設計する。
どちらのシステムも、既存のベンチマークで過去の最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-03-14T10:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。