論文の概要: HeLoFusion: An Efficient and Scalable Encoder for Modeling Heterogeneous and Multi-Scale Interactions in Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2509.11719v1
- Date: Mon, 15 Sep 2025 09:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.214032
- Title: HeLoFusion: An Efficient and Scalable Encoder for Modeling Heterogeneous and Multi-Scale Interactions in Trajectory Prediction
- Title(参考訳): HeLoFusion: 軌道予測における不均一およびマルチスケールインタラクションをモデル化するための効率的でスケーラブルなエンコーダ
- Authors: Bingqing Wei, Lianmin Chen, Zhongyu Xia, Yongtao Wang,
- Abstract要約: HeLoFusionは、異種およびマルチスケールエージェントインタラクションをモデリングするための効率的でスケーラブルなエンコーダである。
本研究は,マルチスケールおよび異種相互作用を明示的にモデル化した局所性グラウンドアーキテクチャが,動き予測を推し進めるための極めて効果的な戦略であることを実証する。
- 参考スコア(独自算出の注目度): 11.30785902722196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent trajectory prediction in autonomous driving requires a comprehensive understanding of complex social dynamics. Existing methods, however, often struggle to capture the full richness of these dynamics, particularly the co-existence of multi-scale interactions and the diverse behaviors of heterogeneous agents. To address these challenges, this paper introduces HeLoFusion, an efficient and scalable encoder for modeling heterogeneous and multi-scale agent interactions. Instead of relying on global context, HeLoFusion constructs local, multi-scale graphs centered on each agent, allowing it to effectively model both direct pairwise dependencies and complex group-wise interactions (\textit{e.g.}, platooning vehicles or pedestrian crowds). Furthermore, HeLoFusion tackles the critical challenge of agent heterogeneity through an aggregation-decomposition message-passing scheme and type-specific feature networks, enabling it to learn nuanced, type-dependent interaction patterns. This locality-focused approach enables a principled representation of multi-level social context, yielding powerful and expressive agent embeddings. On the challenging Waymo Open Motion Dataset, HeLoFusion achieves state-of-the-art performance, setting new benchmarks for key metrics including Soft mAP and minADE. Our work demonstrates that a locality-grounded architecture, which explicitly models multi-scale and heterogeneous interactions, is a highly effective strategy for advancing motion forecasting.
- Abstract(参考訳): 自律運転におけるマルチエージェント軌道予測は、複雑な社会力学を包括的に理解する必要がある。
しかし、既存の手法はしばしばこれらの力学の完全な豊かさ、特にマルチスケール相互作用の共存と異種エージェントの多様な挙動を捉えるのに苦労する。
これらの課題に対処するために、ヘローフュージョン(HeLoFusion)を導入し、ヘテロジニアスおよびマルチスケールエージェントの相互作用をモデル化するための効率的でスケーラブルなエンコーダを提案する。
グローバルなコンテキストに頼る代わりに、HeLoFusionは各エージェントを中心としたローカルでマルチスケールなグラフを構築し、直接的なペアの依存関係と複雑なグループ間の相互作用(\textit{e g }、小隊車両、歩行者群衆)を効果的にモデル化する。
さらに、HeLoFusionはアグリゲーション分解メッセージパッシングスキームとタイプ固有の機能ネットワークを通じてエージェントの不均一性に対処し、ニュアンスでタイプ依存のインタラクションパターンを学習できるようにする。
この局所性を重視したアプローチは、多段階の社会的文脈の原則的な表現を可能にし、強力で表現力豊かなエージェントの埋め込みをもたらす。
挑戦的なWaymo Open Motion Datasetでは、HeLoFusionが最先端のパフォーマンスを実現し、Soft mAPやminADEといった主要なメトリクスのベンチマークを新たに設定する。
本研究は,マルチスケールおよび異種相互作用を明示的にモデル化した局所性グラウンドアーキテクチャが,動き予測を推し進めるための極めて効果的な戦略であることを実証する。
関連論文リスト
- Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
デモからブートストラップされたスキルライブラリは、プラナー誘導タスクを通じて進化し、適応戦略を実現する。
我々は、その最先端のMARLベースラインに対して、対称シナリオと非対称シナリオの両方で強力な性能を示す。
論文 参考訳(メタデータ) (2025-02-14T13:23:18Z) - Multi-Agent Path Finding in Continuous Spaces with Projected Diffusion Models [57.45019514036948]
MAPF(Multi-Agent Path Finding)は、ロボット工学における基本的な問題である。
連続空間におけるMAPFの拡散モデルと制約付き最適化を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T21:27:19Z) - COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models [14.130327598928778]
大規模言語モデル (LLMs) と階層型運動固有ベクトル量子化変分オートエンコーダ (VQ-VAEs) を提案する。
我々のフレームワークは、現実的で多様な協調的な人間-オブジェクト-ヒューマンインタラクションを生成し、最先端の手法より優れています。
我々の研究は、ロボット工学、グラフィックス、コンピュータビジョンなど、様々な領域における複雑な相互作用をモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2024-09-30T17:02:13Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Rethinking Trajectory Prediction via "Team Game" [118.59480535826094]
本稿では,対話型グループコンセンサスの概念を明示的に導入した,マルチエージェント軌道予測の新しい定式化について述べる。
チームスポーツと歩行者の2つのマルチエージェント設定において,提案手法は既存手法と比較して常に優れた性能を達成している。
論文 参考訳(メタデータ) (2022-10-17T07:16:44Z) - Interaction Modeling with Multiplex Attention [17.04973256281265]
マルチエージェントシステムを正確にモデル化する手法を提案する。
提案手法は, 軌道予測や関係推定において, 最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-23T00:29:18Z) - Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning [39.4394389642761]
本稿では,対話型対話を対話型プロトタイプに切り離すための新しい対話型On Pattern DisenTangling (OPT) 手法を提案する。
OPTは無関係な実体間のノイズの相互作用をフィルタリングしやすくし、一般化可能性や解釈可能性を大幅に向上させる。
単一タスク,マルチタスク,ゼロショットのベンチマーク実験により,提案手法が最先端のベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-08T13:42:54Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。