論文の概要: On the Road with GPT-4V(ision): Early Explorations of Visual-Language
Model on Autonomous Driving
- arxiv url: http://arxiv.org/abs/2311.05332v1
- Date: Thu, 9 Nov 2023 12:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 15:15:14.325015
- Title: On the Road with GPT-4V(ision): Early Explorations of Visual-Language
Model on Autonomous Driving
- Title(参考訳): GPT-4V(Ision):自律走行における視覚言語モデルの早期探索
- Authors: Licheng Wen, Xuemeng Yang, Daocheng Fu, Xiaofeng Wang, Pinlong Cai,
Xin Li, Tao Ma, Yingxuan Li, Linran Xu, Dengke Shang, Zheng Zhu, Shaoyan Sun,
Yeqi Bai, Xinyu Cai, Min Dou, Shuanglu Hu, Botian Shi
- Abstract要約: 視覚言語モデル(VLM)の出現は、完全自律運転の実現における新たなフロンティアである。
本報告では,最新のVLM,Modelnamefullの総合評価と自律走行シナリオへの応用について述べる。
本研究により,既存の自律システムと比較して,シーン理解や因果推論において,モデルネームが優れた性能を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 26.573785449146957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pursuit of autonomous driving technology hinges on the sophisticated
integration of perception, decision-making, and control systems. Traditional
approaches, both data-driven and rule-based, have been hindered by their
inability to grasp the nuance of complex driving environments and the
intentions of other road users. This has been a significant bottleneck,
particularly in the development of common sense reasoning and nuanced scene
understanding necessary for safe and reliable autonomous driving. The advent of
Visual Language Models (VLM) represents a novel frontier in realizing fully
autonomous vehicle driving. This report provides an exhaustive evaluation of
the latest state-of-the-art VLM, \modelnamefull, and its application in
autonomous driving scenarios. We explore the model's abilities to understand
and reason about driving scenes, make decisions, and ultimately act in the
capacity of a driver. Our comprehensive tests span from basic scene recognition
to complex causal reasoning and real-time decision-making under varying
conditions. Our findings reveal that \modelname demonstrates superior
performance in scene understanding and causal reasoning compared to existing
autonomous systems. It showcases the potential to handle out-of-distribution
scenarios, recognize intentions, and make informed decisions in real driving
contexts. However, challenges remain, particularly in direction discernment,
traffic light recognition, vision grounding, and spatial reasoning tasks. These
limitations underscore the need for further research and development. Project
is now available on GitHub for interested parties to access and utilize:
\url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}
- Abstract(参考訳): 自動運転技術の追求は、知覚、意思決定、制御システムの高度な統合にかかっている。
データ駆動型とルールベースの従来のアプローチは、複雑な運転環境のニュアンスや、他の道路利用者の意図を把握できないことで妨げられている。
これは特に、安全で信頼性の高い自動運転に必要な常識推論とニュアンスのあるシーン理解の開発において重要なボトルネックとなっている。
視覚言語モデル(VLM)の出現は、完全自律運転の実現における新たなフロンティアである。
本稿では,最新のVLMである \modelnamefull の総合評価と自動運転シナリオへの応用について述べる。
我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。
我々の包括的なテストは、基本的なシーン認識から複雑な因果推論、様々な条件下でのリアルタイム意思決定まで幅広い。
以上の結果から,既存の自律型システムと比較して,シーン理解や因果推論に優れた性能を示すことが明らかとなった。
分散外のシナリオを処理し、意図を認識し、実際の運転状況でインフォームドな意思決定を行う可能性を示す。
しかし、特に方向識別、交通光認識、視覚の接地、空間的推論といった課題は残る。
これらの制限は、さらなる研究と開発の必要性を浮き彫りにした。
プロジェクトがGitHubで利用可能になった。 \url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}
関連論文リスト
- A Survey of Large Language Models for Autonomous Driving [67.843551583229]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large
Language Model [80.08686597198889]
マルチモーダル大言語モデル(LLM)を用いた解釈可能なエンドツーエンド自動運転システムDriveGPT4を提案する。
DriveGPT4は、車両の動作を解釈し、対応する推論を提供するとともに、人間のユーザによる多様な質問に答えて、対話を強化することができる。
従来の手法やビデオ理解LLMと並行して複数のタスクで評価すると,DriveGPT4は質的,定量的に優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - DriveDreamer: Towards Real-world-driven World Models for Autonomous
Driving [79.1116781181185]
実世界の運転シナリオから完全に派生した世界モデルであるDriveDreamerを紹介する。
最初の段階では、DriveDreamerは構造化されたトラフィックの制約を深く理解し、次の段階では将来の状態を予測できる。
DriveDreamerは、現実的で合理的な運転ポリシーの生成を可能にし、インタラクションと実用的なアプリケーションのための道を開く。
論文 参考訳(メタデータ) (2023-09-18T13:58:42Z) - Rethinking Integration of Prediction and Planning in Deep Learning-Based
Automated Driving Systems: A Review [62.997667081978825]
最近の研究は、安全で効率的で快適な運転を実現するためには、相互依存のジョイントステップにおける予測と計画の統合が必要であることを示唆している。
我々は、最先端のディープラーニングベースの予測、計画、統合予測と計画モデルについて体系的にレビューする。
論文 参考訳(メタデータ) (2023-08-10T17:53:03Z) - Drive Like a Human: Rethinking Autonomous Driving with Large Language
Models [28.957124302293966]
本研究では,大規模言語モデル(LLM)を用いた運転環境の人間的理解の可能性を探る。
実験の結果,LLMは長い尾の症例を推論し,解決する優れた能力を示すことがわかった。
論文 参考訳(メタデータ) (2023-07-14T05:18:34Z) - Learning Driving Policies for End-to-End Autonomous Driving [8.707695512525717]
我々は3つのRGBカメラを組み込んだフレームワークを提案し、人間の視野と文脈表現のためのトップダウン意味情報を模倣した。
提案手法の有効性は, CARLAシミュレータを用いて実験的に評価され, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - Tackling Real-World Autonomous Driving using Deep Reinforcement Learning [63.3756530844707]
本研究では,加速と操舵角度を予測するニューラルネットワークを学習するモデルレスディープ強化学習プランナを提案する。
実際の自動運転車にシステムをデプロイするために、我々は小さなニューラルネットワークで表されるモジュールも開発する。
論文 参考訳(メタデータ) (2022-07-05T16:33:20Z) - Explainability of vision-based autonomous driving systems: Review and
challenges [33.720369945541805]
説明可能性の必要性は運転で強く、安全クリティカルなアプリケーションです。
この調査は、コンピュータビジョン、ディープラーニング、自動運転、説明可能なAI(X-AI)など、いくつかの研究分野から貢献を集めています。
論文 参考訳(メタデータ) (2021-01-13T19:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。