論文の概要: Multimodal Large Language Model Framework for Safe and Interpretable Grid-Integrated EVs
- arxiv url: http://arxiv.org/abs/2510.02592v1
- Date: Thu, 02 Oct 2025 21:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.193197
- Title: Multimodal Large Language Model Framework for Safe and Interpretable Grid-Integrated EVs
- Title(参考訳): 安全かつ解釈可能なグリッド付きEVのためのマルチモーダル大言語モデルフレームワーク
- Authors: Jean Douglas Carvalho, Hugo Kenji, Ahmad Mohammad Saber, Glaucia Melo, Max Mauro Dias Santos, Deepa Kundur,
- Abstract要約: 本稿では,マルチモーダルセンサデータを処理するための多モーダル大規模言語モデル(LLM)に基づくフレームワークを提案する。
このフレームワークは、都市道路を走行する計器車から収集された実世界データを用いて検証されている。
視覚知覚(YOLOv8)、ジオコード位置決め、CANバステレメトリを組み合わせることで、フレームワークは生センサデータとドライバの理解を橋渡しする。
- 参考スコア(独自算出の注目度): 3.7098231493739764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of electric vehicles (EVs) into smart grids presents unique opportunities to enhance both transportation systems and energy networks. However, ensuring safe and interpretable interactions between drivers, vehicles, and the surrounding environment remains a critical challenge. This paper presents a multi-modal large language model (LLM)-based framework to process multimodal sensor data - such as object detection, semantic segmentation, and vehicular telemetry - and generate natural-language alerts for drivers. The framework is validated using real-world data collected from instrumented vehicles driving on urban roads, ensuring its applicability to real-world scenarios. By combining visual perception (YOLOv8), geocoded positioning, and CAN bus telemetry, the framework bridges raw sensor data and driver comprehension, enabling safer and more informed decision-making in urban driving scenarios. Case studies using real data demonstrate the framework's effectiveness in generating context-aware alerts for critical situations, such as proximity to pedestrians, cyclists, and other vehicles. This paper highlights the potential of LLMs as assistive tools in e-mobility, benefiting both transportation systems and electric networks by enabling scalable fleet coordination, EV load forecasting, and traffic-aware energy planning. Index Terms - Electric vehicles, visual perception, large language models, YOLOv8, semantic segmentation, CAN bus, prompt engineering, smart grid.
- Abstract(参考訳): 電気自動車(EV)をスマートグリッドに統合することは、輸送システムとエネルギーネットワークの両方を強化するユニークな機会を提供する。
しかし、ドライバー、車両、および周囲の環境間の安全かつ解釈可能な相互作用を確保することは、依然として重要な課題である。
本稿では、オブジェクト検出、セマンティックセグメンテーション、車載テレメトリなどのマルチモーダルセンサデータを処理し、ドライバの自然言語アラートを生成するための多モーダル大規模言語モデル(LLM)に基づくフレームワークを提案する。
このフレームワークは、都市部を走行する車両から収集された実世界のデータを用いて検証されており、実際のシナリオに適用可能である。
このフレームワークは、視覚知覚(YOLOv8)、ジオコード位置決め、CANバステレメトリを組み合わせることで、生センサデータと運転者の理解を橋渡しし、都市の運転シナリオにおいてより安全でよりインフォメーションな意思決定を可能にする。
実データを用いたケーススタディでは、歩行者、サイクリスト、その他の車両に近接するなど、重要な状況に対するコンテキスト認識アラートを生成するためのフレームワークの有効性が示されている。
本稿では,スケーラブルな車両調整,EV負荷予測,交通対応エネルギー計画を可能にすることにより,移動システムと電気ネットワークの両面での補助ツールとしてのLCMの可能性を強調した。
Index Terms - 電気自動車、視覚知覚、大きな言語モデル、YOLOv8、セマンティックセグメンテーション、CANバス、プロンプトエンジニアリング、スマートグリッド。
関連論文リスト
- Automotive-ENV: Benchmarking Multimodal Agents in Vehicle Interface Systems [37.95018030319752]
ドライバーの注意不足、厳格な安全要件、複雑な位置ベースのインタラクションパターンなどである。
本稿では,車載GUIに適した,最初の高忠実度ベンチマークおよびインタラクション環境であるAutomotive-ENVを紹介する。
位置, 環境条件, 地域運転規範に基づいて動的に行動を調整するために, GPSインフォームドコンテキストを統合した地理認識型マルチモーダルエージェントASURADAを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:30:13Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Tapping in a Remote Vehicle's onboard LLM to Complement the Ego Vehicle's Field-of-View [1.701722696403793]
本稿では,車載言語モデル(LLM)をタップすることで,エゴ車両の視野(FOV)と他の車両のFOVを補完する概念を提案する。
GPT-4V や GPT-4o など,ごく最近の LLM では,交通状況が極めて詳細に把握されているため,交通参加者の特定にも利用することができる。
論文 参考訳(メタデータ) (2024-08-20T12:38:34Z) - CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - Generative AI-empowered Simulation for Autonomous Driving in Vehicular
Mixed Reality Metaverses [130.15554653948897]
車両混合現実(MR)メタバースでは、物理的実体と仮想実体の間の距離を克服することができる。
現実的なデータ収集と物理世界からの融合による大規模交通・運転シミュレーションは困難かつコストがかかる。
生成AIを利用して、無制限の条件付きトラフィックを合成し、シミュレーションでデータを駆動する自律運転アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-16T16:54:10Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。