論文の概要: HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning
- arxiv url: http://arxiv.org/abs/2505.15703v1
- Date: Wed, 21 May 2025 16:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.771683
- Title: HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning
- Title(参考訳): HAMF: 共同場面理解と将来の動き表現学習のためのハイブリッド・アテンション・マンバ・フレームワーク
- Authors: Xiaodong Mei, Sheng Wang, Jie Cheng, Yingbing Chen, Dan Xu,
- Abstract要約: 本研究では,シーンコンテキストを協調的に符号化した将来の動き表現を学習する動き予測フレームワークであるHAMFを提案する。
我々は,我々のハイブリッドアテンション・マンバモデルにより,シンプルで軽量なアーキテクチャで最先端のモーション予測性能を実現することを示す。
- 参考スコア(独自算出の注目度): 12.568968115955865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion forecasting represents a critical challenge in autonomous driving systems, requiring accurate prediction of surrounding agents' future trajectories. While existing approaches predict future motion states with the extracted scene context feature from historical agent trajectories and road layouts, they suffer from the information degradation during the scene feature encoding. To address the limitation, we propose HAMF, a novel motion forecasting framework that learns future motion representations with the scene context encoding jointly, to coherently combine the scene understanding and future motion state prediction. We first embed the observed agent states and map information into 1D token sequences, together with the target multi-modal future motion features as a set of learnable tokens. Then we design a unified Attention-based encoder, which synergistically combines self-attention and cross-attention mechanisms to model the scene context information and aggregate future motion features jointly. Complementing the encoder, we implement the Mamba module in the decoding stage to further preserve the consistency and correlations among the learned future motion representations, to generate the accurate and diverse final trajectories. Extensive experiments on Argoverse 2 benchmark demonstrate that our hybrid Attention-Mamba model achieves state-of-the-art motion forecasting performance with the simple and lightweight architecture.
- Abstract(参考訳): 運動予測は自律運転システムにおいて重要な課題であり、周囲のエージェントの将来の軌道を正確に予測する必要がある。
既存の手法では、過去のエージェントの軌跡や道路レイアウトから抽出したシーンコンテキストの特徴から将来の動き状態を予測するが、シーン特徴符号化時の情報劣化に悩まされる。
この制限に対処するために,シーン理解と将来の動き状態予測を協調的に組み合わせた,将来の動き表現とシーンコンテキストを共同で学習する新しい動き予測フレームワークであるHAMFを提案する。
まず、観測されたエージェントの状態と情報を1Dトークンシーケンスにマップし、学習可能なトークンの集合として、対象のマルチモーダルな将来の動作特徴と組み合わせる。
そして,統合されたアテンションベースエンコーダを設計し,自己認識とクロスアテンションの機構を相乗的に組み合わせ,シーンのコンテキスト情報をモデル化し,将来的な動作特徴を協調的に集約する。
エンコーダを補完し、復号段階でMambaモジュールを実装し、学習した将来の動作表現間の一貫性と相関を更に保ち、正確で多様な最終軌道を生成する。
Argoverse 2ベンチマークの大規模な実験により、我々のハイブリッドアテンション・マンバモデルが、シンプルで軽量なアーキテクチャで最先端のモーション予測性能を達成することを示した。
関連論文リスト
- GC-GAT: Multimodal Vehicular Trajectory Prediction using Graph Goal Conditioning and Cross-context Attention [0.0]
レーングラフに基づく動き予測モデルを提案し、まずまずグラフに基づく目標提案を予測し、その後、複数のコンテキスト要素にまたがってそれらを融合する。
我々はnuScenesの動作予測データセットについて評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2025-04-15T12:53:07Z) - Future-Aware Interaction Network For Motion Forecasting [10.211526610529374]
本稿では,シーンエンコーディングに将来的な軌跡を取り入れたインタラクションベースの「Future-Aware Interaction Network」を提案する。
空間的相互作用モデリングにMambaを適用するために,未順序データを構造化シーケンスに変換する適応的リオーダー戦略を提案する。
マンバは、生成した将来の軌道を時間的に洗練し、より一貫した予測を保証するために使用される。
論文 参考訳(メタデータ) (2025-03-09T11:38:34Z) - Flow-guided Motion Prediction with Semantics and Dynamic Occupancy Grid Maps [5.9803668726235575]
OGM(Occupancy Grid Maps)は、一般的にシーン予測に使用される。
近年,OGMと深層学習を併用してシーンの進化を予測する手法が研究されている。
我々は,動的なOGMとセマンティック情報を利用して,将来の車両セマンティックグリッドとシーンの将来の流れを予測できる新しいマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-22T14:42:34Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - FIMP: Future Interaction Modeling for Multi-Agent Motion Prediction [18.10147252674138]
動作予測(FIMP)のための未来のインタラクションモデリングを提案し,その将来的なインタラクションをエンドツーエンドで捉える。
実験により,今後のインタラクションモデリングにより性能が著しく向上し,Argoverseモーション予測ベンチマークの性能が向上することが示された。
論文 参考訳(メタデータ) (2024-01-29T14:41:55Z) - Decoder Fusion RNN: Context and Interaction Aware Decoders for
Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。
Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。
提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文 参考訳(メタデータ) (2021-08-12T15:53:37Z) - Learning Semantic-Aware Dynamics for Video Prediction [68.04359321855702]
非閉塞を明示的にモデル化して,映像フレームを予測するためのアーキテクチャとトレーニング方式を提案する。
シーンの外観は、コ・ヴィジュアブル領域の予測された動きを用いて過去のフレームから歪められる。
論文 参考訳(メタデータ) (2021-04-20T05:00:24Z) - Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。
我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文 参考訳(メタデータ) (2020-07-23T14:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。