論文の概要: AD-H: Autonomous Driving with Hierarchical Agents
- arxiv url: http://arxiv.org/abs/2406.03474v1
- Date: Wed, 5 Jun 2024 17:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 17:12:15.862539
- Title: AD-H: Autonomous Driving with Hierarchical Agents
- Title(参考訳): AD-H:階層型エージェントによる自律走行
- Authors: Zaibin Zhang, Shiyu Tang, Yuanhang Zhang, Talas Fu, Yifan Wang, Yang Liu, Dong Wang, Jing Shao, Lijun Wang, Huchuan Lu,
- Abstract要約: 我々は,ハイレベル命令と低レベル制御信号を中間言語駆動の命令に接続することを提案する。
我々は、AD-Hという階層型マルチエージェント駆動システムを用いて、このアイデアを実装した。
- 参考スコア(独自算出の注目度): 64.49185157446297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the impressive capabilities of multimodal large language models (MLLMs), recent works have focused on employing MLLM-based agents for autonomous driving in large-scale and dynamic environments. However, prevalent approaches often directly translate high-level instructions into low-level vehicle control signals, which deviates from the inherent language generation paradigm of MLLMs and fails to fully harness their emergent powers. As a result, the generalizability of these methods is highly restricted by autonomous driving datasets used during fine-tuning. To tackle this challenge, we propose to connect high-level instructions and low-level control signals with mid-level language-driven commands, which are more fine-grained than high-level instructions but more universal and explainable than control signals, and thus can effectively bridge the gap in between. We implement this idea through a hierarchical multi-agent driving system named AD-H, including a MLLM planner for high-level reasoning and a lightweight controller for low-level execution. The hierarchical design liberates the MLLM from low-level control signal decoding and therefore fully releases their emergent capability in high-level perception, reasoning, and planning. We build a new dataset with action hierarchy annotations. Comprehensive closed-loop evaluations demonstrate several key advantages of our proposed AD-H system. First, AD-H can notably outperform state-of-the-art methods in achieving exceptional driving performance, even exhibiting self-correction capabilities during vehicle operation, a scenario not encountered in the training dataset. Second, AD-H demonstrates superior generalization under long-horizon instructions and novel environmental conditions, significantly surpassing current state-of-the-art methods. We will make our data and code publicly accessible at https://github.com/zhangzaibin/AD-H
- Abstract(参考訳): MLLM(Multimodal large language model)の印象的な機能のため、最近の研究はMLLMをベースとしたエージェントを大規模・動的環境における自律運転に活用することに焦点を当てている。
しかし、一般的なアプローチは、しばしば高レベルな命令を直接低レベルな車両制御信号に変換するが、これはMLLMの固有の言語生成パラダイムから逸脱し、その創発的な能力を完全に活用できない。
その結果、これらの手法の一般化性は、微調整時に使用される自律運転データセットによって非常に制限される。
この課題に対処するために,高レベルの命令と低レベルの制御信号と,高レベルの命令よりも細粒度で,制御信号よりも普遍的で説明しやすい中レベルの言語駆動命令とを接続し,そのギャップを効果的に埋めることを提案する。
我々は、高レベル推論のためのMLLMプランナと低レベル実行のための軽量コントローラを含む、階層型マルチエージェント駆動システムAD-Hを用いて、このアイデアを実装した。
階層設計はMLLMを低レベル制御信号の復号化から解放し、高レベル認識、推論、計画においてその創発的能力を完全に解放する。
アクション階層アノテーションを使った新しいデータセットを構築します。
包括的閉ループ評価は,提案したAD-Hシステムのいくつかの重要な利点を示す。
第一に、AD-Hは、訓練データセットで遭遇しないシナリオである、車両操作中に自己補正能力を示すことさえも、例外的な運転性能を達成する上で、最先端の手法よりも顕著に優れている。
第二に、AD-Hは長期の指導と新しい環境条件下での優れた一般化を示し、最先端の手法をはるかに上回っている。
私たちは、データとコードをhttps://github.com/zhangzaibin/AD-Hで公開します。
関連論文リスト
- MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - DualAD: Dual-Layer Planning for Reasoning in Autonomous Driving [1.8434042562191815]
運転中の人間の推論を模倣する新しい自動運転フレームワークであるDualADを提案する。
DualADは、ルールベースのモーションプランナとルールベースのテキストエンコーダを備えた上位レイヤの2つのレイヤで構成されている。
論文 参考訳(メタデータ) (2024-09-26T16:58:04Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - Driving with LLMs: Fusing Object-Level Vector Modality for Explainable
Autonomous Driving [6.728693243652425]
大規模言語モデル(LLM)は、特に一般化と解釈可能性において、自動運転分野において有望であることを示している。
我々は,ベクトル化された数値を事前学習したLLMにマージして,運転状況における文脈理解を改善する,ユニークなオブジェクトレベルのマルチモーダルLLMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-03T11:05:14Z) - Ground Manipulator Primitive Tasks to Executable Actions using Large
Language Models [13.827349677538352]
大規模言語モデル(LLM)を用いた低レベル動作ロボットのためのマニピュレータ・プリミティブ・タスクを基礎とする新しい手法を提案する。
このようにして、LLMはハイブリッド制御のための位置/力のセットポイントを生成することができる。
論文 参考訳(メタデータ) (2023-08-13T16:52:36Z) - Automatic Rule Induction for Efficient Semi-Supervised Learning [56.91428251227253]
半教師付き学習は、少量のラベル付きデータからNLPモデルを一般化できることを約束している。
事前訓練されたトランスモデルはブラックボックス相関エンジンとして機能し、説明が困難であり、時には信頼性に欠ける振る舞いをする。
本稿では,これらの課題に,簡易かつ汎用的なフレームワークであるAutomatic Rule Injection (ARI) を用いて対処することを提案する。
論文 参考訳(メタデータ) (2022-05-18T16:50:20Z) - From proprioception to long-horizon planning in novel environments: A
hierarchical RL model [4.44317046648898]
本稿では,異なるタイプの推論を反映した,単純で3段階の階層型アーキテクチャを提案する。
本手法をMujoco Ant環境における一連のナビゲーションタスクに適用する。
論文 参考訳(メタデータ) (2020-06-11T17:19:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。