論文の概要: DriVLMe: Enhancing LLM-based Autonomous Driving Agents with Embodied and Social Experiences
- arxiv url: http://arxiv.org/abs/2406.03008v1
- Date: Wed, 5 Jun 2024 07:14:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 19:39:21.325854
- Title: DriVLMe: Enhancing LLM-based Autonomous Driving Agents with Embodied and Social Experiences
- Title(参考訳): DriVLMe: LLMをベースとした自律運転エージェントの身体的・社会的体験の向上
- Authors: Yidong Huang, Jacob Sansom, Ziqiao Ma, Felix Gervits, Joyce Chai,
- Abstract要約: DriVLMeは、人間と自動運転車のコミュニケーションを容易にするためのビデオ言語モデルに基づくエージェントである。
オープンループベンチマークとクローズドループヒューマンスタディの両方において競合性能を示す。
- 参考スコア(独自算出の注目度): 12.51538076211772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in foundation models (FMs) have unlocked new prospects in autonomous driving, yet the experimental settings of these studies are preliminary, over-simplified, and fail to capture the complexity of real-world driving scenarios in human environments. It remains under-explored whether FM agents can handle long-horizon navigation tasks with free-from dialogue and deal with unexpected situations caused by environmental dynamics or task changes. To explore the capabilities and boundaries of FMs faced with the challenges above, we introduce DriVLMe, a video-language-model-based agent to facilitate natural and effective communication between humans and autonomous vehicles that perceive the environment and navigate. We develop DriVLMe from both embodied experiences in a simulated environment and social experiences from real human dialogue. While DriVLMe demonstrates competitive performance in both open-loop benchmarks and closed-loop human studies, we reveal several limitations and challenges, including unacceptable inference time, imbalanced training data, limited visual understanding, challenges with multi-turn interactions, simplified language generation from robotic experiences, and difficulties in handling on-the-fly unexpected situations like environmental dynamics and task changes.
- Abstract(参考訳): ファンデーションモデル(FM)の最近の進歩は、自動運転の新しい展望を解き放ちつつあるが、これらの研究の実験的な設定は、予備的であり、過剰に単純化され、人間の環境における現実の運転シナリオの複雑さを捉えることができない。
FMエージェントが長距離航法タスクを自由対話で処理し、環境力学やタスク変更による予期せぬ状況に対処できるかは、まだ解明されていない。
上記の課題に直面するFMの能力と限界を探るため,人間と自律走行車の自然かつ効果的なコミュニケーションを支援するビデオ言語モデルベースのエージェントであるDriVLMeを紹介した。
シミュレーション環境における具体的体験と実際の人間対話による社会体験の両方からDriVLMeを開発する。
DriVLMeは、オープンループベンチマークとクローズドループヒューマンスタディの両方で競争性能を示す一方で、許容できない推論時間、不均衡なトレーニングデータ、視覚的理解の制限、マルチターンインタラクションによる課題、ロボット体験からの言語生成の簡略化、環境力学やタスク変更といった予期せぬ状況に対処する難しさなど、いくつかの制限と課題を明らかにします。
関連論文リスト
- Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
本研究は,自律運転分野におけるMLLM(Multimodal Large Language Models)の適用に焦点を当てた。
我々は、固定車載カメラの観点から、様々なMLLMの運転能力を世界モデルとして評価する。
以上の結果から,最先端MLLMの現在の能力に重要なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model [22.25903116720301]
説明責任は、信頼できる自律的な意思決定において重要な役割を果たす。
MLLM(Multi-Modal Large Language Model)の最近の進歩は、駆動エージェントとしての説明可能性を高める有望な可能性を示している。
提案するRAG-Driverは,高機能,説明性,一般化可能な自律運転にコンテキスト内学習を活用する,検索強化型多モード大言語モデルである。
論文 参考訳(メタデータ) (2024-02-16T16:57:18Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - COCOI: Contact-aware Online Context Inference for Generalizable
Non-planar Pushing [87.7257446869134]
一般的なコンタクトリッチな操作問題は、ロボット工学における長年の課題である。
深層強化学習は、ロボット操作タスクの解決に大きな可能性を示している。
動的プロパティのコンテキスト埋め込みをオンラインにエンコードする深層RL法であるCOCOIを提案する。
論文 参考訳(メタデータ) (2020-11-23T08:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。