論文の概要: GContextFormer: A global context-aware hybrid multi-head attention approach with scaled additive aggregation for multimodal trajectory prediction
- arxiv url: http://arxiv.org/abs/2511.18874v1
- Date: Mon, 24 Nov 2025 08:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.106717
- Title: GContextFormer: A global context-aware hybrid multi-head attention approach with scaled additive aggregation for multimodal trajectory prediction
- Title(参考訳): GContextFormer:マルチモーダル軌道予測のための大規模付加的アグリゲーションを用いたグローバルなコンテキスト認識型ハイブリッドマルチヘッドアテンションアプローチ
- Authors: Yuzhi Chen, Yuanchang Xie, Lei Zhao, Pan Liu, Yajie Zou, Chen Wang,
- Abstract要約: HDマップに依存したモデルは、コストのかかるデータ取得、更新の遅れ、破損した入力に対する脆弱性に悩まされる。
本稿では,グローバルなコンテキスト認識型ハイブリッドアテンションを備えた,プラグイン・アンド・プレイ型エンコーダ・デコーダアーキテクチャであるGContextFormerを提案する。
- 参考スコア(独自算出の注目度): 19.049345629101882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal trajectory prediction generates multiple plausible future trajectories to address vehicle motion uncertainty from intention ambiguity and execution variability. However, HD map-dependent models suffer from costly data acquisition, delayed updates, and vulnerability to corrupted inputs, causing prediction failures. Map-free approaches lack global context, with pairwise attention over-amplifying straight patterns while suppressing transitional patterns, resulting in motion-intention misalignment. This paper proposes GContextFormer, a plug-and-play encoder-decoder architecture with global context-aware hybrid attention and scaled additive aggregation achieving intention-aligned multimodal prediction without map reliance. The Motion-Aware Encoder builds scene-level intention prior via bounded scaled additive aggregation over mode-embedded trajectory tokens and refines per-mode representations under shared global context, mitigating inter-mode suppression and promoting intention alignment. The Hierarchical Interaction Decoder decomposes social reasoning into dual-pathway cross-attention: a standard pathway ensures uniform geometric coverage over agent-mode pairs while a neighbor-context-enhanced pathway emphasizes salient interactions, with gating module mediating their contributions to maintain coverage-focus balance. Experiments on eight highway-ramp scenarios from TOD-VT dataset show GContextFormer outperforms state-of-the-art baselines. Compared to existing transformer models, GContextFormer achieves greater robustness and concentrated improvements in high-curvature and transition zones via spatial distributions. Interpretability is achieved through motion mode distinctions and neighbor context modulation exposing reasoning attribution. The modular architecture supports extensibility toward cross-domain multimodal reasoning tasks. Source: https://fenghy-chen.github.io/sources/.
- Abstract(参考訳): 多モーダル軌道予測は、意図的あいまいさと実行変動性から車両運動の不確実性に対処するために、複数の可算な将来の軌道を生成する。
しかし、HDマップに依存したモデルは、コストのかかるデータ取得、更新の遅れ、破損した入力に対する脆弱性に悩まされ、予測に失敗する。
地図のないアプローチは、グローバルなコンテキストを欠き、過度に注意を払ってストレートパターンを増幅し、トランジショナルパターンを抑圧し、モーションインテンションのミスアライメントをもたらす。
本稿では,GContextFormerを提案する。GContextFormerは,グローバルなコンテキスト認識型ハイブリッドアテンションとスケールされた付加的アグリゲーションを備えた,地図依存を伴わない意図整合型マルチモーダル予測を実現するための,プラグイン・プレイ用エンコーダ・デコーダアーキテクチャである。
Motion-Aware Encoderは、モード埋め込みされたトラジェクトリトークン上の有界スケールの付加的アグリゲーションを通じて、事前にシーンレベルのインテンションを構築し、共有グローバルコンテキスト下でモードごとの表現を洗練し、モード間抑制を緩和し、インテンションアライメントを促進する。
標準的な経路はエージェントモードペアに対する均一な幾何学的カバレッジを保証し、隣のコンテキスト拡張経路は、カバーフォーカスバランスを維持するために彼らの貢献をゲーティングモジュールで仲介する。
TOD-VTデータセットによる8つのハイウェイランプシナリオの実験では、GContextFormerが最先端のベースラインを上回っている。
既存の変圧器モデルと比較して、GContextFormerは空間分布による高曲率および遷移域の堅牢性と集中的な改善を実現している。
解釈性は、動作モードの区別と近隣のコンテキスト変調による推論属性の公開によって達成される。
モジュールアーキテクチャは、クロスドメインなマルチモーダル推論タスクへの拡張性をサポートする。
出典: https://fenghy-chen.github.io/sources/。
関連論文リスト
- MAGE: Multimodal Alignment and Generation Enhancement via Bridging Visual and Semantic Spaces [23.447713697204225]
MAGEは、革新的なアライメント機構を通じて視覚とテキストの意味空間をブリッジする新しいフレームワークである。
我々は、クロスエントロピーと平均二乗誤差を組み合わせたトレーニング戦略を採用し、アライメント効果を著しく向上させる。
提案するマルチモーダル大規模モデルアーキテクチャであるMAGEは,様々な評価ベンチマークにおける類似の手法と比較して,性能が大幅に向上した。
論文 参考訳(メタデータ) (2025-07-29T12:17:46Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments [73.80718037070773]
本稿では, 半構造化シーンに, nuScenesの形式を付加したマルチモーダルなPedestrian-Focused Sceneデータセットを提案する。
また,密集・隠蔽シナリオにおける歩行者検出のためのHMFN(Hybrid Multi-Scale Fusion Network)を提案する。
論文 参考訳(メタデータ) (2025-02-21T09:57:53Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - MSTF: Multiscale Transformer for Incomplete Trajectory Prediction [30.152217860860464]
本稿では,不完全な軌道予測のためのエンドツーエンドフレームワークであるMultiscale Transformer(MSTF)を提案する。
MSTFは、Multiscale Attention Head (MAH)とInformation Increment-based Pattern Adaptive (IIPA)モジュールを統合している。
2つの大規模実世界のデータセットを用いて提案したMSTFモデルを評価する。
論文 参考訳(メタデータ) (2024-07-08T07:10:17Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - A Hierarchical Hybrid Learning Framework for Multi-agent Trajectory
Prediction [4.181632607997678]
深層学習(DL)と強化学習(RL)の階層的ハイブリッドフレームワークを提案する。
DLの段階では、トラフィックシーンは、トランスフォーマースタイルのGNNが異種相互作用を符号化するために採用される複数の中間スケールの異種グラフに分割される。
RLの段階では、DLの段階で予測される重要な将来点を利用して、交通シーンを局所的なサブシーンに分割する。
論文 参考訳(メタデータ) (2023-03-22T02:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。