論文の概要: Vision-Integrated LLMs for Autonomous Driving Assistance : Human Performance Comparison and Trust Evaluation
- arxiv url: http://arxiv.org/abs/2502.06843v1
- Date: Thu, 06 Feb 2025 19:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:08:49.814288
- Title: Vision-Integrated LLMs for Autonomous Driving Assistance : Human Performance Comparison and Trust Evaluation
- Title(参考訳): 自律走行支援のための視覚統合型LCM : 人体性能比較と信頼度評価
- Authors: Namhee Kim, Woojin Park,
- Abstract要約: 本研究では,Large Language Model (LLM) を用いた自律運転支援システムを提案する。
YOLOv4 と Vision Transformer (ViT) を組み合わせた視覚アダプタは、包括的な視覚的特徴を抽出する。
このシステムは、状況を説明する上での人間のパフォーマンスを忠実に反映し、適切な応答を生成する上での人間の決定と適度に整合する。
- 参考スコア(独自算出の注目度): 2.322929119892535
- License:
- Abstract: Traditional autonomous driving systems often struggle with reasoning in complex, unexpected scenarios due to limited comprehension of spatial relationships. In response, this study introduces a Large Language Model (LLM)-based Autonomous Driving (AD) assistance system that integrates a vision adapter and an LLM reasoning module to enhance visual understanding and decision-making. The vision adapter, combining YOLOv4 and Vision Transformer (ViT), extracts comprehensive visual features, while GPT-4 enables human-like spatial reasoning and response generation. Experimental evaluations with 45 experienced drivers revealed that the system closely mirrors human performance in describing situations and moderately aligns with human decisions in generating appropriate responses.
- Abstract(参考訳): 従来の自律運転システムは、空間的関係の限定的な理解のため、複雑で予期せぬシナリオにおける推論に苦慮することが多い。
そこで本研究では,視覚的理解と意思決定を強化するために,視覚アダプターとLCM推論モジュールを統合したLarge Language Model (LLM)ベースの自律運転支援システムを提案する。
YOLOv4 と Vision Transformer (ViT) を組み合わせた視覚アダプタは、総合的な視覚的特徴を抽出し、GPT-4 は人間のような空間的推論と応答生成を可能にする。
経験者45名を対象に実験を行った結果,システムは状況記述において人的パフォーマンスを忠実に反映し,適切な応答を生成する上での人的判断と適度に一致していることがわかった。
関連論文リスト
- Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Experiments, and Challenges [15.52530518623987]
大規模言語モデル(LLM)は、自律運転システムの様々な側面を強化する可能性を秘めている。
本稿では,自動走行(LLM4AD)のためのLLMの設計概念について紹介する。
LLM4ADシステムの性能とポテンシャルを徹底的に評価し、実世界の車両プラットフォーム上で一連の実験を行う。
論文 参考訳(メタデータ) (2024-10-20T04:36:19Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - On the Road with GPT-4V(ision): Early Explorations of Visual-Language
Model on Autonomous Driving [37.617793990547625]
本報告では,最新のVLMであるGPT-4Vの徹底的な評価を行う。
我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。
GPT-4Vは,既存の自律システムと比較して,シーン理解や因果推論において優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-09T12:58:37Z) - Receive, Reason, and React: Drive as You Say with Large Language Models
in Autonomous Vehicles [13.102404404559428]
本稿では,Large Language Models (LLMs) を利用した自律走行車における意思決定プロセスを強化する新しいフレームワークを提案する。
我々の研究は、自動運転と戦術的意思決定タスクのための環境の集合であるHighwayEnvの実験を含む。
また、リアルタイムのパーソナライズも検討し、LLMが音声コマンドに基づいて運転行動にどう影響するかを示す。
論文 参考訳(メタデータ) (2023-10-12T04:56:01Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - Drive Like a Human: Rethinking Autonomous Driving with Large Language
Models [28.957124302293966]
本研究では,大規模言語モデル(LLM)を用いた運転環境の人間的理解の可能性を探る。
実験の結果,LLMは長い尾の症例を推論し,解決する優れた能力を示すことがわかった。
論文 参考訳(メタデータ) (2023-07-14T05:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。