論文の概要: Efficient Driving Behavior Narration and Reasoning on Edge Device Using Large Language Models
- arxiv url: http://arxiv.org/abs/2409.20364v1
- Date: Mon, 30 Sep 2024 15:03:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 07:56:35.953249
- Title: Efficient Driving Behavior Narration and Reasoning on Edge Device Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたエッジデバイス上での効率的な運転行動ナレーションと推論
- Authors: Yizhou Huang, Yihua Cheng, Kezhi Wang,
- Abstract要約: 大規模言語モデル(LLM)は、人間の知覚と同じような精度で、運転シーンや行動を記述することができる。
エッジデバイスにLLMを適用した運転行動ナレーションと推論フレームワークを提案する。
実験により,エッジデバイスに展開したLCMは,応答速度が良好であることが確認された。
- 参考スコア(独自算出の注目度): 16.532357621144342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning architectures with powerful reasoning capabilities have driven significant advancements in autonomous driving technology. Large language models (LLMs) applied in this field can describe driving scenes and behaviors with a level of accuracy similar to human perception, particularly in visual tasks. Meanwhile, the rapid development of edge computing, with its advantage of proximity to data sources, has made edge devices increasingly important in autonomous driving. Edge devices process data locally, reducing transmission delays and bandwidth usage, and achieving faster response times. In this work, we propose a driving behavior narration and reasoning framework that applies LLMs to edge devices. The framework consists of multiple roadside units, with LLMs deployed on each unit. These roadside units collect road data and communicate via 5G NSR/NR networks. Our experiments show that LLMs deployed on edge devices can achieve satisfactory response speeds. Additionally, we propose a prompt strategy to enhance the narration and reasoning performance of the system. This strategy integrates multi-modal information, including environmental, agent, and motion data. Experiments conducted on the OpenDV-Youtube dataset demonstrate that our approach significantly improves performance across both tasks.
- Abstract(参考訳): 強力な推論能力を持つディープラーニングアーキテクチャは、自動運転技術の大幅な進歩を促している。
この分野に応用された大規模言語モデル(LLM)は、特に視覚的タスクにおいて、人間の知覚に類似したレベルの精度で、運転シーンや行動を記述することができる。
一方、エッジコンピューティングの急速な発展は、データソースに近接する利点を生かして、エッジデバイスが自律運転においてますます重要になっている。
エッジデバイスはデータをローカルに処理し、送信遅延と帯域幅の使用量を削減し、応答時間を短縮する。
本研究では,LLMをエッジデバイスに適用した運転行動ナレーションと推論フレームワークを提案する。
フレームワークは複数のロードサイドユニットで構成され、各ユニットにLSMが配置されている。
これらの道路ユニットは道路データを収集し、5G NSR/NRネットワークを介して通信する。
実験により,エッジデバイスに展開したLCMは,応答速度が良好であることが確認された。
さらに,システムのナレーションと推論性能を高めるための迅速な戦略を提案する。
この戦略は、環境、エージェント、モーションデータを含むマルチモーダル情報を統合する。
OpenDV-Youtubeデータセットで行った実験は、我々のアプローチが両タスク間で性能を大幅に改善することを示した。
関連論文リスト
- Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
本研究は,自律運転分野におけるMLLM(Multimodal Large Language Models)の適用に焦点を当てた。
我々は、固定車載カメラの観点から、様々なMLLMの運転能力を世界モデルとして評価する。
以上の結果から,最先端MLLMの現在の能力に重要なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving [71.9040410238973]
我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
BDD-Xデータセットで行った評価では,DriveGPT4の質的,定量的な性能が向上した。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - End-to-end Autonomous Driving: Challenges and Frontiers [45.391430626264764]
エンドツーエンドの自動運転におけるモチベーション、ロードマップ、方法論、課題、今後のトレンドについて、270以上の論文を包括的に分析する。
マルチモダリティ、解釈可能性、因果的混乱、堅牢性、世界モデルなど、いくつかの重要な課題を掘り下げます。
基礎モデルと視覚前訓練の現在の進歩と、これらの技術をエンドツーエンドの駆動フレームワークに組み込む方法について論じる。
論文 参考訳(メタデータ) (2023-06-29T14:17:24Z) - Penalty-Based Imitation Learning With Cross Semantics Generation Sensor
Fusion for Autonomous Driving [1.2749527861829049]
本稿では,複数の情報モダリティを統合するために,ペナルティに基づく模倣学習手法を提案する。
最新技術(SOTA)モデルであるInterFuserと比較して,運転スコアが12%以上増加していることが観察された。
本モデルでは, 推論速度を7倍に向上し, モデルサイズを約30%削減しながら, この性能向上を実現している。
論文 参考訳(メタデータ) (2023-03-21T14:29:52Z) - Context-Aware Timewise VAEs for Real-Time Vehicle Trajectory Prediction [4.640835690336652]
マルチモーダル車軌道予測のためのコンテキスト認識手法であるContextVAEを提案する。
本手法は,現場のエージェントが提示する社会的特徴と,身体環境の制約を考慮に入れたものである。
すべてのテストデータセットにおいて、ContextVAEモデルはトレーニングが高速で、リアルタイムに高品質なマルチモーダル予測を提供する。
論文 参考訳(メタデータ) (2023-02-21T18:42:24Z) - Generative AI-empowered Simulation for Autonomous Driving in Vehicular
Mixed Reality Metaverses [130.15554653948897]
車両混合現実(MR)メタバースでは、物理的実体と仮想実体の間の距離を克服することができる。
現実的なデータ収集と物理世界からの融合による大規模交通・運転シミュレーションは困難かつコストがかかる。
生成AIを利用して、無制限の条件付きトラフィックを合成し、シミュレーションでデータを駆動する自律運転アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-16T16:54:10Z) - CARNet: A Dynamic Autoencoder for Learning Latent Dynamics in Autonomous
Driving Tasks [11.489187712465325]
自律運転システムは、世界の抽象的な記述を形成するために、様々なセンサから収集した情報を効果的に活用すべきである。
オートエンコーダのようなディープラーニングモデルは、受信データのストリームからコンパクトな潜在表現を学習できるため、その目的のために使用できる。
この研究は、自動エンコーダとリカレントニューラルネットワークを組み合わせて現在の潜伏表現を学習する、複合dynAmicautoencodeRネットワークアーキテクチャであるCARNetを提案する。
論文 参考訳(メタデータ) (2022-05-18T04:15:42Z) - Autonomous Navigation through intersections with Graph
ConvolutionalNetworks and Conditional Imitation Learning for Self-driving
Cars [10.080958939027363]
自動運転では、信号のない交差点を通るナビゲーションは難しい作業だ。
ナビゲーションポリシー学習のための新しい分岐ネットワークG-CILを提案する。
エンドツーエンドのトレーニング可能なニューラルネットワークは、より高い成功率と短いナビゲーション時間でベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-01T07:33:12Z) - DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention
and Alertness Analysis [54.198237164152786]
視覚は運転監視システム(DMS)の最も豊かで費用対効果の高い技術である
十分に大規模で包括的なデータセットの欠如は、DMS開発の進展のボトルネックとなっている。
本稿では,実運転シナリオとシミュレーション運転シナリオを含む広範囲なデータセットであるドライバモニタリングデータセット(DMD)を紹介する。
論文 参考訳(メタデータ) (2020-08-27T12:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。