論文の概要: Vehicle-to-Infrastructure Collaborative Spatial Perception via Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2509.03837v1
- Date: Thu, 04 Sep 2025 02:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.030418
- Title: Vehicle-to-Infrastructure Collaborative Spatial Perception via Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルによる自動車とインフラの協調的空間認識
- Authors: Kimia Ehsani, Walid Saad,
- Abstract要約: 大型言語モデル (MLLM) の限界を克服するために, 軽量でプラグアンドプレイの鳥眼ビュー (BEV) インジェクションコネクタを提案する。
レイトレーシングはRGB、LiDAR、GPS、無線信号データを様々なセンシングシナリオで生成するために開発された。
シミュレーションの結果,提案したBEVインジェクションフレームワークは全タスクのパフォーマンスを継続的に改善していることがわかった。
- 参考スコア(独自算出の注目度): 41.00138090010061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate prediction of communication link quality metrics is essential for vehicle-to-infrastructure (V2I) systems, enabling smooth handovers, efficient beam management, and reliable low-latency communication. The increasing availability of sensor data from modern vehicles motivates the use of multimodal large language models (MLLMs) because of their adaptability across tasks and reasoning capabilities. However, MLLMs inherently lack three-dimensional spatial understanding. To overcome this limitation, a lightweight, plug-and-play bird's-eye view (BEV) injection connector is proposed. In this framework, a BEV of the environment is constructed by collecting sensing data from neighboring vehicles. This BEV representation is then fused with the ego vehicle's input to provide spatial context for the large language model. To support realistic multimodal learning, a co-simulation environment combining CARLA simulator and MATLAB-based ray tracing is developed to generate RGB, LiDAR, GPS, and wireless signal data across varied scenarios. Instructions and ground-truth responses are programmatically extracted from the ray-tracing outputs. Extensive experiments are conducted across three V2I link prediction tasks: line-of-sight (LoS) versus non-line-of-sight (NLoS) classification, link availability, and blockage prediction. Simulation results show that the proposed BEV injection framework consistently improved performance across all tasks. The results indicate that, compared to an ego-only baseline, the proposed approach improves the macro-average of the accuracy metrics by up to 13.9%. The results also show that this performance gain increases by up to 32.7% under challenging rainy and nighttime conditions, confirming the robustness of the framework in adverse settings.
- Abstract(参考訳): 車両間通信(V2I)システムでは,スムーズなハンドオーバ,効率的なビーム管理,信頼性の高い低遅延通信が可能な通信リンク品質指標の正確な予測が不可欠である。
現代の車両からのセンサデータの増加は、タスク間の適応性と推論能力のため、マルチモーダルな大規模言語モデル(MLLM)の使用を動機付けている。
しかし、MLLMは本質的に3次元空間理解を欠いている。
この制限を克服するために,軽量でプラグアンドプレイの鳥眼ビュー (BEV) インジェクションコネクタを提案する。
この枠組みでは、隣接する車両からのセンシングデータを収集して環境のBEVを構築する。
このBEV表現は、エゴ車の入力と融合し、大きな言語モデルのための空間的コンテキストを提供する。
現実的なマルチモーダル学習を支援するため,CARLAシミュレータとMATLABベースのレイトレーシングを組み合わせた共同シミュレーション環境を開発し,RGB,LiDAR,GPS,無線信号データを生成する。
レイトレーシング出力から命令と接地トルース応答をプログラム的に抽出する。
3つのV2Iリンク予測タスク – Line-of-sight (LoS) と Non-of-sight (NLoS) の分類,リンク可用性,ブロッカジ予測 – に対して,大規模な実験が行われた。
シミュレーションの結果,提案したBEVインジェクションフレームワークは全タスクのパフォーマンスを継続的に改善していることがわかった。
その結果、egoのみのベースラインと比較して、提案手法は精度指標のマクロ平均を最大13.9%改善することがわかった。
また, 降雨条件および夜間条件下では, この性能が32.7%向上し, 悪条件下でのフレームワークの堅牢性が確認された。
関連論文リスト
- MIDAR: Mimicking LiDAR Detection for Traffic Applications with a Lightweight Plug-and-Play Model [3.256565256248141]
MIDARは、交通シミュレータから容易に利用できる車両レベルの特徴を用いて、現実的なLiDAR検出を近似するLiDAR検出模倣モデルである。
MIDAR は nuScenes AD データセット上で CenterPoint が生成した検出結果を近似することで 0.909 の AUC を達成する。
論文 参考訳(メタデータ) (2025-08-04T19:35:05Z) - Edge-Based Multimodal Sensor Data Fusion with Vision Language Models (VLMs) for Real-time Autonomous Vehicle Accident Avoidance [12.513296074529727]
本稿では,自律走行のためのリアルタイムエッジベース自律走行軌道プランナ(REACT)を提案する。
REACTは、微調整軽量ビジョンランゲージモデル(VLM)に基づくADのためのV2X統合軌道最適化フレームワークである。
DeepAccidentベンチマークで評価されたREACTは、最先端の性能、77%の衝突率の低減、48.2%のビデオパノプティクス品質(VPQ)、およびJetson AGX Orinでの0.57秒の推論遅延を実現している。
論文 参考訳(メタデータ) (2025-08-01T20:16:04Z) - NRSeg: Noise-Resilient Learning for BEV Semantic Segmentation via Driving World Models [24.239522252881336]
Birds' Eye View (BEV) セマンティックセグメンテーションは、エンドツーエンドの自動運転システムにおいて必須の認識タスクである。
BEVタスクの教師なしおよび半教師なし学習は、ラベル付きデータの均質な分布に起因する。
本稿では,BEVセマンティックセグメンテーションのための雑音耐性学習フレームワークであるNRSegを提案する。
論文 参考訳(メタデータ) (2025-07-05T11:05:43Z) - Resource-Efficient Beam Prediction in mmWave Communications with Multimodal Realistic Simulation Framework [57.994965436344195]
ビームフォーミングは、方向と強度を最適化して信号伝送を改善するミリ波通信において重要な技術である。
マルチモーダルセンシング支援ビーム予測は,ユーザ位置やネットワーク条件を予測するために,さまざまなセンサデータを使用して注目されている。
その有望な可能性にもかかわらず、マルチモーダルセンシング支援ビーム予測の採用は、高い計算複雑性、高いコスト、限られたデータセットによって妨げられている。
論文 参考訳(メタデータ) (2025-04-07T15:38:25Z) - Pruning-Based TinyML Optimization of Machine Learning Models for Anomaly Detection in Electric Vehicle Charging Infrastructure [8.29566258132752]
本稿では,EVCIを対象とする資源制約環境における異常検出のためのプルーニング手法について検討する。
最適化されたモデルは、モデルのサイズと推論時間の大幅な削減を実現しました。
特に,EVCIでは,プルーニングとFSが重要な異常検出能力を保ちながら,計算効率を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-03-19T00:18:37Z) - SimBEV: A Synthetic Multi-Task Multi-Sensor Driving Data Generation Tool and Dataset [101.51012770913627]
近年,BEV(Bird's-eye view)の認識は自律運転において大きな注目を集めている。
SimBEVは、広範囲にスケーラブルでスケーラブルなランダム化された合成データ生成ツールである。
SimBEVは、さまざまな運転シナリオからの注釈付き知覚データの大規模なコレクションであるSimBEVデータセットを作成するために使用される。
論文 参考訳(メタデータ) (2025-02-04T00:00:06Z) - Drivetrain simulation using variational autoencoders [0.0]
本研究は、トルク要求から車両のジャーク信号を予測するための変分オートエンコーダ(VAE)を提案する。
我々は、完全電動SUVの2つの変種の実験データに基づいて、無条件と条件付きの両方のVAEを実装した。
論文 参考訳(メタデータ) (2025-01-29T13:37:32Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。