論文の概要: LEGO-Motion: Learning-Enhanced Grids with Occupancy Instance Modeling for Class-Agnostic Motion Prediction
- arxiv url: http://arxiv.org/abs/2503.07367v1
- Date: Mon, 10 Mar 2025 14:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:41.515759
- Title: LEGO-Motion: Learning-Enhanced Grids with Occupancy Instance Modeling for Class-Agnostic Motion Prediction
- Title(参考訳): LEGO-Motion:クラス非依存動作予測のための実行事例モデリングによる学習強化グリッド
- Authors: Kangan Qian, Jinyu Miao, Ziang Luo, Zheng Fu, and Jinchen Li, Yining Shi, Yunlong Wang, Kun Jiang, Mengmeng Yang, Diange Yang,
- Abstract要約: 本稿ではLEGO-Motionという,クラスに依存しない動作予測タスクのための新しい占有状況モデリングフレームワークを提案する。
本モデルは,(1)BEVエンコーダ,(2)Interaction-Augmented Instance,(3)インスタンス強化型BEVからなる。
提案手法は最先端の性能を達成し,既存手法より優れている。
- 参考スコア(独自算出の注目度): 12.071846486955627
- License:
- Abstract: Accurate and reliable spatial and motion information plays a pivotal role in autonomous driving systems. However, object-level perception models struggle with handling open scenario categories and lack precise intrinsic geometry. On the other hand, occupancy-based class-agnostic methods excel in representing scenes but fail to ensure physics consistency and ignore the importance of interactions between traffic participants, hindering the model's ability to learn accurate and reliable motion. In this paper, we introduce a novel occupancy-instance modeling framework for class-agnostic motion prediction tasks, named LEGO-Motion, which incorporates instance features into Bird's Eye View (BEV) space. Our model comprises (1) a BEV encoder, (2) an Interaction-Augmented Instance Encoder, and (3) an Instance-Enhanced BEV Encoder, improving both interaction relationships and physics consistency within the model, thereby ensuring a more accurate and robust understanding of the environment. Extensive experiments on the nuScenes dataset demonstrate that our method achieves state-of-the-art performance, outperforming existing approaches. Furthermore, the effectiveness of our framework is validated on the advanced FMCW LiDAR benchmark, showcasing its practical applicability and generalization capabilities. The code will be made publicly available to facilitate further research.
- Abstract(参考訳): 正確で信頼性の高い空間情報や動き情報は、自律運転システムにおいて重要な役割を果たす。
しかし、オブジェクトレベルの知覚モデルは、オープンシナリオのカテゴリを扱うのに苦労し、正確な固有幾何学が欠如している。
一方、占有型クラス非依存手法はシーンの表現に優れるが、物理の整合性の確保に失敗し、交通参加者間の相互作用の重要性を無視し、正確で信頼性の高い動作を学習するモデルの能力を妨げている。
本稿では,鳥の目視(BEV)空間にインスタンス機能を組み込んだLEGO-Motionという,クラスに依存しない動作予測タスクのための新しい占有状況モデリングフレームワークを提案する。
本モデルは,(1)BEVエンコーダ,(2)対話拡張型インスタンスエンコーダ,(3)インスタンス拡張型BEVエンコーダから構成され,モデル内の相互作用関係と物理の整合性の両方を改善し,より正確で堅牢な環境理解を実現する。
nuScenesデータセットの大規模な実験により、我々の手法は最先端のパフォーマンスを達成し、既存のアプローチよりも優れていることを示した。
さらに,本フレームワークの有効性をFMCW LiDARベンチマークで検証し,その実用性と一般化能力を示す。
コードは、さらなる研究を促進するために公開されます。
関連論文リスト
- ACT-Bench: Towards Action Controllable World Models for Autonomous Driving [2.6749009435602122]
世界モデルは自律運転のための有望な神経シミュレータとして登場した。
動作の忠実度を定量化するためのオープンアクセス評価フレームワーク ACT-Bench を開発した。
現状のモデルが与えられた指示に完全に従わないことを示す一方で,Terraは改善された行動忠実性を実現する。
論文 参考訳(メタデータ) (2024-12-06T01:06:28Z) - 3D Multi-Object Tracking with Semi-Supervised GRU-Kalman Filter [6.13623925528906]
3D Multi-Object Tracking (MOT)は、自律運転やロボットセンシングのようなインテリジェントなシステムに不可欠である。
本稿では,学習可能なカルマンフィルタを移動モジュールに導入するGRUベースのMOT法を提案する。
このアプローチは、データ駆動学習を通じてオブジェクトの動き特性を学習することができ、手動モデル設計やモデルエラーを回避することができる。
論文 参考訳(メタデータ) (2024-11-13T08:34:07Z) - A Cognitive-Based Trajectory Prediction Approach for Autonomous Driving [21.130543517747995]
本稿では,教師による知識蒸留の枠組みを取り入れたHuman-Like Trajectory Prediction (H)モデルを提案する。
教師」モデルは人間の脳、特に後頭葉と側頭葉の機能の視覚的処理を模倣する。
学生」モデルはリアルタイムのインタラクションと意思決定に焦点を合わせ、正確な予測のために重要な知覚的手がかりを捉えます。
論文 参考訳(メタデータ) (2024-02-29T15:22:26Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z) - A Weighted Solution to SVM Actionability and Interpretability [0.0]
実行可能性(Actionability)は、機械学習モデルの解釈可能性や説明可能性と同じくらい重要であり、進行中で重要な研究トピックである。
本稿では,線形SVMモデルと非線形SVMモデルの両方において,動作可能性の問題に対する解を求める。
論文 参考訳(メタデータ) (2020-12-06T20:35:25Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。