論文の概要: HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving
- arxiv url: http://arxiv.org/abs/2401.03160v5
- Date: Fri, 14 Jun 2024 23:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 07:04:39.787038
- Title: HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving
- Title(参考訳): HAIM-DRL:安全かつ効率的な自律運転のための強化されたループ内強化学習
- Authors: Zilin Huang, Zihao Sheng, Chengyuan Ma, Sikai Chen,
- Abstract要約: 本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
- 参考スコア(独自算出の注目度): 2.807187711407621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in autonomous vehicles (AVs), the development of driving policies that ensure both the safety of AVs and traffic flow efficiency has not yet been fully explored. In this paper, we propose an enhanced human-in-the-loop reinforcement learning method, termed the Human as AI mentor-based deep reinforcement learning (HAIM-DRL) framework, which facilitates safe and efficient autonomous driving in mixed traffic platoon. Drawing inspiration from the human learning process, we first introduce an innovative learning paradigm that effectively injects human intelligence into AI, termed Human as AI mentor (HAIM). In this paradigm, the human expert serves as a mentor to the AI agent. While allowing the agent to sufficiently explore uncertain environments, the human expert can take control in dangerous situations and demonstrate correct actions to avoid potential accidents. On the other hand, the agent could be guided to minimize traffic flow disturbance, thereby optimizing traffic flow efficiency. In detail, HAIM-DRL leverages data collected from free exploration and partial human demonstrations as its two training sources. Remarkably, we circumvent the intricate process of manually designing reward functions; instead, we directly derive proxy state-action values from partial human demonstrations to guide the agents' policy learning. Additionally, we employ a minimal intervention technique to reduce the human mentor's cognitive load. Comparative results show that HAIM-DRL outperforms traditional methods in driving safety, sampling efficiency, mitigation of traffic flow disturbance, and generalizability to unseen traffic scenarios. The code and demo videos for this paper can be accessed at: https://zilin-huang.github.io/HAIM-DRL-website/
- Abstract(参考訳): 自動運転車(AV)の大幅な進歩にもかかわらず、AVの安全性と交通流効率を両立させる運転ポリシーの開発はまだ完全には検討されていない。
本稿では,複合交通小隊における安全かつ効率的な自律運転を支援するAIメンターベース深部強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop Regressed Learning(Human-in-the-loop Regressed Learning)を提案する。
人間の学習プロセスからインスピレーションを得て、まず、人間の知性をAIに効果的に注入する革新的な学習パラダイムを導入します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能する。
エージェントが不確実な環境を十分に探索できる一方で、人間の専門家は危険な状況で制御し、潜在的な事故を避けるための正しい行動を示すことができる。
一方, エージェントを誘導することで, 交通流の乱れを最小限に抑え, 交通流効率を最適化することができる。
HAIM-DRLは、自由な探査と部分的な人間のデモンストレーションから収集したデータを2つのトレーニングソースとして活用している。
我々は報酬関数を手動で設計する複雑なプロセスを回避し、代わりにエージェントの政策学習を導くために、部分的な人間のデモンストレーションから状態-行動値を直接導出する。
さらに、人間のメンターの認知負荷を軽減するために、最小限の介入手法を用いる。
その結果, HAIM-DRLは, 運転安全, サンプリング効率, 交通流障害の緩和, 交通シナリオの一般化において, 従来の手法よりも優れていた。
この論文のコードとデモビデオは、https://zilin-huang.github.io/HAIM-DRL-website/でアクセスできます。
関連論文リスト
- Ego-Foresight: Agent Visuomotor Prediction as Regularization for RL [34.6883445484835]
エゴフォレスト(Ego-Foresight)は、エージェントと環境を移動と予測に基づいて切り離す自己管理手法である。
本稿では,エージェントのビジュモータ予測がRLアルゴリズムの正規化に役立ち,動作が予測可能な範囲内に留まるよう促すことを示す。
Ego-ForesightとモデルフリーなRLアルゴリズムを統合し、ロボット操作のシミュレーションを解くことで、効率が23%向上し、性能が8%向上した。
論文 参考訳(メタデータ) (2024-05-27T13:32:43Z) - Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Multi-Agent Deep Reinforcement Learning for Dynamic Avatar Migration in
AIoT-enabled Vehicular Metaverses with Trajectory Prediction [70.9337170201739]
本稿では,その歴史データに基づいて,知的車両の将来の軌跡を予測するモデルを提案する。
提案アルゴリズムは,予測なしでアバタータスクの実行遅延を約25%削減できることを示す。
論文 参考訳(メタデータ) (2023-06-26T13:27:11Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Human-AI Shared Control via Frequency-based Policy Dissection [34.0399894373716]
人間-AI共有制御は、複雑な環境で制御タスクを達成するために、人間がAIと対話し、協力することを可能にする。
従来の強化学習(RL)手法は、人間の制御可能なポリシーを達成するために目標条件付き設計を試みる。
我々は、学習したニューラルコントローラの中間表現とエージェント動作の運動特性を整合させる、TextitPolicy Dissectionと呼ばれるシンプルで効果的な周波数ベースのアプローチを開発した。
論文 参考訳(メタデータ) (2022-05-31T23:57:55Z) - Efficient Learning of Safe Driving Policy via Human-AI Copilot
Optimization [38.21629972247463]
我々はHuman-AI Copilot Optimization (HACO)と呼ばれる新しいループ学習手法を開発した。
提案したHACOは、トライアル・アンド・エラー探査と人間の部分的なデモンストレーションの両方から、ハイパフォーマンスエージェントのトレーニングに有効に活用する。
実験により、HACOは安全な運転ベンチマークにおいて、かなり高い試料効率を達成することが示された。
論文 参考訳(メタデータ) (2022-02-17T06:29:46Z) - DDPG car-following model with real-world human driving experience in
CARLA [0.0]
そこで本研究では,現実世界の人間の運転から学習し,純粋なDRLエージェントよりも優れた性能を実現する2段階のDeep Reinforcement Learning(DRL)手法を提案する。
評価のために、提案した2段DRLエージェントと純粋なDRLエージェントを比較するために、異なる実世界の運転シナリオを設計した。
論文 参考訳(メタデータ) (2021-12-29T15:22:31Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Accelerating Reinforcement Learning Agent with EEG-based Implicit Human
Feedback [10.138798960466222]
人間のフィードバックによる強化学習(RL)エージェントは、学習のさまざまな側面を劇的に改善することができる。
従来の方法では、人間の観察者が明示的に入力をし、RLエージェントの学習プロセスのループで人間を負担する必要があった。
脳波による人間の内因性反応を、エラー関連電位(ErrP)の形で暗黙の(そして自然な)フィードバックとして捉えることを検討する。
論文 参考訳(メタデータ) (2020-06-30T03:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。