論文の概要: Recall to Predict: Grounding Motion Forecasting in Interpretable Motion Bank
- arxiv url: http://arxiv.org/abs/2605.01393v1
- Date: Sat, 02 May 2026 11:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.747128
- Title: Recall to Predict: Grounding Motion Forecasting in Interpretable Motion Bank
- Title(参考訳): Recall to Predict: Grounding Motion Forecasting in Interpretable Motion Bank
- Authors: Abhishek Vivekanandan, Ahmed Abouelazm, J. Marius Zöllner,
- Abstract要約: 総合的な「モーションバンク」における予測を基盤としたエンドツーエンドの差別化可能なフレームワークを提案する。
空白のスレートから経路を回帰するのではなく、新しいアンカー検索層を用いて動的に明示的な動きを復元する。
提案手法では,Argoverse 2 および Open Motion データセット上での競合するマルチモーダル精度を実現しつつ,標準潜時クエリの "ブラックボックス" を排除している。
- 参考スコア(独自算出の注目度): 9.873160019979602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motion forecasting often requires trading interpretability for predictive accuracy. Standard anchor-based architectures rely on opaque latent queries that are highly prone to latent collapse, or naive trajectory sampling that limits multi-modal diversity. We propose an end-to-end differentiable framework that grounds predictions in a comprehensive "motion bank", a structured embedding space of physically realizable trajectories constructed via contrastive learning. Rather than regressing paths from a blank slate, our architecture dynamically retrieves explicit motion priors using a novel Anchor Retrieval Layer. This module adapts orthogonally initialized queries via a Dual-Level Gated Cross-Attention mechanism and executes discrete trajectory selection using a Straight-Through Gumbel-Softmax estimator to preserve continuous gradient flow. The retrieved semantically grounded anchors are then geometrically refined by a DETR-style decoder, optimized jointly with a Winner-Takes-All (WTA) kinematic Gaussian Mixture Model (GMM), a latent diversity penalty, and a soft-min weighted endpoint loss. By strictly conditioning the decoding phase on diverse, interpretable motion primitives, our approach eliminates the "black box" of standard latent queries while achieving competitive multi-modal accuracy on the Argoverse 2 and Waymo Open Motion datasets. Code is available at: https://github.com/abviv/recall2predict
- Abstract(参考訳): 動き予測は、しばしば予測精度のために取引の解釈可能性を必要とする。
標準的なアンカーベースのアーキテクチャは、遅延崩壊や、マルチモーダルな多様性を制限する単純な軌道サンプリングに非常に近い不透明な潜伏クエリに依存している。
コントラスト学習によって構築された物理的に実現可能な軌道の組込み空間である総合的な「運動銀行」に予測を基礎付けるエンドツーエンドの微分可能なフレームワークを提案する。
空白のスレートから経路を回帰するのではなく、新しいアンカー検索層を用いて動的に明示的な動きを復元する。
このモジュールは直交初期化クエリをDual-Level Gated Cross-Attention機構を介して適用し、Straight-Through Gumbel-Softmax推定器を用いて離散軌道選択を行い、連続的な勾配流を保存する。
得られたセマンティックグラウンドドアンカーは、DETRスタイルのデコーダによって幾何学的に洗練され、Winner-Takes-All (WTA) のキネティックガウス混合モデル(GMM)、潜伏多様性のペナルティ、ソフトミン重み付きエンドポイント損失と共に最適化される。
多様な解釈可能な動作プリミティブに対して復号フェーズを厳格に条件付けすることにより、Argoverse 2およびWaymo Open Motionデータセット上で競合するマルチモーダル精度を実現しつつ、標準潜在クエリの"ブラックボックス"を排除できる。
コードは、https://github.com/abviv/recall2predict.comで入手できる。
関連論文リスト
- Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing [1.0312968200748118]
Rectified Flowモデルは最先端の世代品質を実現するが、正確なタスクのためにそれらを制御することは依然として困難である。
現在のアプローチは「幾何学的ロック」に苦しむ逆法に基づくガイダンスに分岐する
Score-Guided Proximal Projectionは,決定論的最適化と縮尺サンプリングのギャップを埋める統一フレームワークである。
論文 参考訳(メタデータ) (2026-03-05T23:44:45Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Trajectory Forecasting through Low-Rank Adaptation of Discrete Latent Codes [36.12653178844828]
トラジェクトリ予測は、一連のエージェントの将来の動きを予測できるため、ビデオ監視分析に不可欠である。
本稿では,離散潜在空間を用いたベクトル量子変分オートエンコーダ(VQ-VAEs)を導入し,後方崩壊問題に対処する。
このような2段階のフレームワークは、インスタンスレベルの離散化によって強化され、正確で多様な予測につながることを示す。
論文 参考訳(メタデータ) (2024-05-31T10:13:17Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - EDA: Evolving and Distinct Anchors for Multimodal Motion Prediction [27.480524917596565]
混合モデルに基づくマルチモーダル動作予測のための正および負の成分を定義するために,EDA(Evolving and Distinct Anchors)と呼ばれる新しいパラダイムを導入する。
EDAにより、アンカーは、拡張された回帰能力のために、特定のシーンで自分自身を進化させ、再分割することができる。
論文 参考訳(メタデータ) (2023-12-15T02:55:24Z) - ContrastMotion: Self-supervised Scene Motion Learning for Large-Scale
LiDAR Point Clouds [21.6511040107249]
BEV表現を用いたLiDARに基づく自律走行のための新しい自律走行推定器を提案する。
連続するフレームにおける柱間の特徴レベルの整合性によるシーンの動きを予測し,ダイナミックなシーンにおけるノイズポイントや視点変化点雲の影響を解消する。
論文 参考訳(メタデータ) (2023-04-25T05:46:24Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。