論文の概要: ModeSeq: Taming Sparse Multimodal Motion Prediction with Sequential Mode Modeling
- arxiv url: http://arxiv.org/abs/2411.11911v1
- Date: Sun, 17 Nov 2024 16:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:38:27.538653
- Title: ModeSeq: Taming Sparse Multimodal Motion Prediction with Sequential Mode Modeling
- Title(参考訳): ModeSeq:シークエンシャルモードモデリングによるスパースマルチモーダル動作予測
- Authors: Zikang Zhou, Hengjian Zhou, Haibo Hu, Zihao Wen, Jianping Wang, Yung-Hui Li, Yu-Kai Huang,
- Abstract要約: モードをシーケンスとしてモデル化する新しいマルチモーダル予測パラダイムであるModeSeqを導入する。
一つのショットで複数の可塑性軌道をデコードする一般的な慣習とは異なり、ModeSeqは次のモードをステップ単位で推論するためにモーションデコーダを必要とする。
また,軌道の多様化を図るため,EMTA(Early-Match-Take-All)トレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 9.594287402707229
- License:
- Abstract: Anticipating the multimodality of future events lays the foundation for safe autonomous driving. However, multimodal motion prediction for traffic agents has been clouded by the lack of multimodal ground truth. Existing works predominantly adopt the winner-take-all training strategy to tackle this challenge, yet still suffer from limited trajectory diversity and misaligned mode confidence. While some approaches address these limitations by generating excessive trajectory candidates, they necessitate a post-processing stage to identify the most representative modes, a process lacking universal principles and compromising trajectory accuracy. We are thus motivated to introduce ModeSeq, a new multimodal prediction paradigm that models modes as sequences. Unlike the common practice of decoding multiple plausible trajectories in one shot, ModeSeq requires motion decoders to infer the next mode step by step, thereby more explicitly capturing the correlation between modes and significantly enhancing the ability to reason about multimodality. Leveraging the inductive bias of sequential mode prediction, we also propose the Early-Match-Take-All (EMTA) training strategy to diversify the trajectories further. Without relying on dense mode prediction or rule-based trajectory selection, ModeSeq considerably improves the diversity of multimodal output while attaining satisfactory trajectory accuracy, resulting in balanced performance on motion prediction benchmarks. Moreover, ModeSeq naturally emerges with the capability of mode extrapolation, which supports forecasting more behavior modes when the future is highly uncertain.
- Abstract(参考訳): 将来のイベントのマルチモダリティを期待することは、安全な自動運転の基盤となる。
しかし、交通機関のマルチモーダル動作予測は、マルチモーダル基底の真実の欠如により曇っている。
既存の作業は、この課題に取り組むために、勝者全員のトレーニング戦略を主に採用するが、しかしながら、軌道の多様性とモードの信頼性の相違に悩まされている。
いくつかのアプローチは、過度の軌道候補を生成することによってこれらの制限に対処するが、最も代表的なモードを特定するために後処理の段階を必要とする。
そこで我々は,モードをシーケンスとしてモデル化する新しいマルチモーダル予測パラダイムであるModeSeqを導入する。
一つのショットで複数の可塑性軌道をデコードする一般的な慣習とは異なり、ModeSeqはモーションデコーダに次のモードステップをステップごとに推論させ、これによりモード間の相関をより明確に把握し、マルチモーダル性について推論する能力を著しく向上させる。
また, 逐次モード予測の帰納バイアスを生かして, トラジェクトリをさらに多様化させるために, EMTA(Early-Match-Take-All)トレーニング戦略を提案する。
モードセックは高密度モード予測や規則に基づく軌道選択に頼らず、良好な軌道精度を達成しながらマルチモーダル出力の多様性を著しく改善し、運動予測ベンチマークにおけるバランスの取れた性能をもたらす。
さらに、ModeSeqはモード外挿の能力で自然に現れ、未来が極めて不確実であるときにより多くの動作モードを予測するのをサポートする。
関連論文リスト
- Annealed Winner-Takes-All for Motion Forecasting [48.200282332176094]
本稿では,AWTAの損失を最先端のモーション予測モデルと統合して性能を向上させる方法を示す。
我々の手法は、WTAを用いて訓練された任意の軌道予測モデルに容易に組み込むことができる。
論文 参考訳(メタデータ) (2024-09-17T13:26:17Z) - Tractable Joint Prediction and Planning over Discrete Behavior Modes for
Urban Driving [15.671811785579118]
自己回帰閉ループモデルのパラメータ化は,再学習を伴わずに可能であることを示す。
離散潜在モード上での完全反応性閉ループ計画を提案する。
当社のアプローチは、CARLAにおける従来の最先端技術よりも、高密度なトラフィックシナリオに挑戦する上で優れています。
論文 参考訳(メタデータ) (2024-03-12T01:00:52Z) - Controllable Diverse Sampling for Diffusion Based Motion Behavior
Forecasting [11.106812447960186]
制御可能拡散軌道(CDT)と呼ばれる新しい軌道生成器を導入する。
CDTは、情報と社会的相互作用をトランスフォーマーに基づく条件記述拡散モデルに統合し、将来の軌跡の予測を導く。
マルチモーダル性を確保するため,直進,右折,左折などの軌道モードを指示する行動トークンを組み込んだ。
論文 参考訳(メタデータ) (2024-02-06T13:16:54Z) - GDTS: Goal-Guided Diffusion Model with Tree Sampling for Multi-Modal Pedestrian Trajectory Prediction [15.731398013255179]
マルチモーダル軌道予測のための木サンプリングを用いたゴールガイド拡散モデルを提案する。
2段階のツリーサンプリングアルゴリズムが提案され、一般的な特徴を活用して推論時間を短縮し、マルチモーダル予測の精度を向上させる。
実験により,提案フレームワークは,公開データセットにおけるリアルタイム推論速度と同等の最先端性能を達成できることが実証された。
論文 参考訳(メタデータ) (2023-11-25T03:55:06Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - Multi-mode Transformer Transducer with Stochastic Future Context [53.005638503544866]
マルチモード音声認識モデルは、より長期のコンテキストを処理して高い精度を達成することができ、遅延予算が柔軟でない場合には、モデルが信頼できる精度を達成することができる。
マルチモードのASRモデルに匹敵する競合が,異なるレイテンシ予算でトレーニングされた,競争力のあるストリーミングベースラインのセットであることを示す。
論文 参考訳(メタデータ) (2021-06-17T18:42:11Z) - Multimodal Motion Prediction with Stacked Transformers [35.9674180611893]
我々はmmTransformerと呼ばれるマルチモーダル動作予測のための新しいトランスフォーマーフレームワークを提案する。
スタックドトランスフォーマーに基づく新しいネットワークアーキテクチャは、固定された独立した提案のセットで機能レベルでマルチモダリティをモデル化するように設計されている。
次に、生成した提案のマルチモーダリティを誘導するために、地域ベースのトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2021-03-22T07:25:54Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。