論文の概要: Tracking Meets Large Multimodal Models for Driving Scenario Understanding
- arxiv url: http://arxiv.org/abs/2503.14498v1
- Date: Tue, 18 Mar 2025 17:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:14:36.335737
- Title: Tracking Meets Large Multimodal Models for Driving Scenario Understanding
- Title(参考訳): シナリオ理解のための大規模マルチモーダルモデル
- Authors: Ayesha Ishaq, Jean Lahoud, Fahad Shahbaz Khan, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、最近自動運転研究で注目されている。
本稿では3次元の空間的・時間的詳細を復元するための追加入力として追跡情報を統合することを提案する。
本稿では,この追跡情報をLMMに埋め込んで,運転シナリオの理解を深めるための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 76.71815464110153
- License:
- Abstract: Large Multimodal Models (LMMs) have recently gained prominence in autonomous driving research, showcasing promising capabilities across various emerging benchmarks. LMMs specifically designed for this domain have demonstrated effective perception, planning, and prediction skills. However, many of these methods underutilize 3D spatial and temporal elements, relying mainly on image data. As a result, their effectiveness in dynamic driving environments is limited. We propose to integrate tracking information as an additional input to recover 3D spatial and temporal details that are not effectively captured in the images. We introduce a novel approach for embedding this tracking information into LMMs to enhance their spatiotemporal understanding of driving scenarios. By incorporating 3D tracking data through a track encoder, we enrich visual queries with crucial spatial and temporal cues while avoiding the computational overhead associated with processing lengthy video sequences or extensive 3D inputs. Moreover, we employ a self-supervised approach to pretrain the tracking encoder to provide LMMs with additional contextual information, significantly improving their performance in perception, planning, and prediction tasks for autonomous driving. Experimental results demonstrate the effectiveness of our approach, with a gain of 9.5% in accuracy, an increase of 7.04 points in the ChatGPT score, and 9.4% increase in the overall score over baseline models on DriveLM-nuScenes benchmark, along with a 3.7% final score improvement on DriveLM-CARLA. Our code is available at https://github.com/mbzuai-oryx/TrackingMeetsLMM
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、最近自動運転研究で注目され、様々な新興ベンチマークで有望な能力を示している。
この領域用に特別に設計されたLMMは、効果的な認識、計画、予測のスキルを示してきた。
しかし、これらの手法の多くは、主に画像データに依存する3次元空間的要素と時間的要素を弱めている。
その結果、動的運転環境における有効性は制限されている。
そこで本稿では,画像に写っていない3次元空間的・時間的細部を復元するための追加入力として追跡情報を統合することを提案する。
運転シナリオの時空間的理解を高めるために,この追跡情報をLMMに組み込む新しい手法を提案する。
トラックエンコーダを通しての3D追跡データを組み込むことで,映像列の処理や広範な3D入力に伴う計算オーバーヘッドを回避しつつ,重要な空間的および時間的手がかりを持つ視覚的クエリを充実させる。
さらに、トラッキングエンコーダを事前訓練することで、LMMに追加の文脈情報を提供し、自動運転における認識、計画、予測タスクの性能を大幅に向上させる。
実験の結果, 精度は9.5%, ChatGPTスコアは7.04ポイント, DriveLM-nuScenesベンチマークではベースラインモデルよりも9.4%, DriveLM-CARLAでは3.7%向上した。
私たちのコードはhttps://github.com/mbzuai-oryx/TrackingMeetsLMMで利用可能です。
関連論文リスト
- Multimodal LLM for Intelligent Transportation Systems [0.0]
本稿では,アプリケーション,機械学習手法,ハードウェア機器の交わりをカプセル化する新しい3次元フレームワークを提案する。
複数の機械学習アルゴリズムを使う代わりに、我々のフレームワークは時系列、画像、ビデオを分析する単一のデータ中心のLLMアーキテクチャを使用する。
我々は,このLLMフレームワークを,Oxford Radar RobotCar,D-Behavior (D-Set),MotionalのnuScenes,Comma2k19など,さまざまなセンサデータセットに適用した。
論文 参考訳(メタデータ) (2024-12-16T11:50:30Z) - DELTA: Dense Efficient Long-range 3D Tracking for any video [82.26753323263009]
DELTAは3次元空間内のすべてのピクセルを効率よく追跡し,ビデオ全体の正確な動き推定を可能にする手法である。
提案手法では,低分解能追跡のためのグローバルアテンション機構と,高分解能予測を実現するためのトランスフォーマーベースアップサンプラーを併用する。
提案手法は,3次元空間における細粒度・長期動作追跡を必要とするアプリケーションに対して,ロバストなソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-31T17:59:01Z) - 3D Multi-Object Tracking Using Graph Neural Networks with Cross-Edge
Modality Attention [9.150245363036165]
Batch3DMOTは、現実のシーンを、方向付き、非循環型、カテゴリー非結合な追跡グラフとして表現する。
モーダル間断続性を緩和するクロスエッジアテンション機構を用いたマルチモーダルグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-21T12:44:17Z) - 3D-FCT: Simultaneous 3D Object Detection and Tracking Using Feature
Correlation [0.0]
3D-FCTは、時間情報を利用して3Dオブジェクトの検出と追跡の関連タスクを同時に実行するシームズネットワークアーキテクチャである。
提案手法は,最先端手法よりも5.57%mAPの改善が期待できるKITTI追跡データセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-06T06:36:29Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。