論文の概要: From Learning to Mastery: Achieving Safe and Efficient Real-World Autonomous Driving with Human-In-The-Loop Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.06038v1
- Date: Tue, 07 Oct 2025 15:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.319504
- Title: From Learning to Mastery: Achieving Safe and Efficient Real-World Autonomous Driving with Human-In-The-Loop Reinforcement Learning
- Title(参考訳): 学びから熟達へ:人間内強化学習による安全で効率的な実世界自律運転の実現
- Authors: Li Zeqiao, Wang Yijing, Wang Haoyu, Li Zheng, Li Peng, Liu Wenfei, Zuo Zhiqiang,
- Abstract要約: 我々はH-DSAC(Human-Guided Distributional Soft Actor-Critic)という,報酬のないアクティブなループ学習手法を提案する。
提案手法は,PVPとDSACを組み合わせることで,実環境における効率的かつ安全なトレーニングを実現する。
- 参考スコア(独自算出の注目度): 2.9019234287347864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving with reinforcement learning (RL) has significant potential. However, applying RL in real-world settings remains challenging due to the need for safe, efficient, and robust learning. Incorporating human expertise into the learning process can help overcome these challenges by reducing risky exploration and improving sample efficiency. In this work, we propose a reward-free, active human-in-the-loop learning method called Human-Guided Distributional Soft Actor-Critic (H-DSAC). Our method combines Proxy Value Propagation (PVP) and Distributional Soft Actor-Critic (DSAC) to enable efficient and safe training in real-world environments. The key innovation is the construction of a distributed proxy value function within the DSAC framework. This function encodes human intent by assigning higher expected returns to expert demonstrations and penalizing actions that require human intervention. By extrapolating these labels to unlabeled states, the policy is effectively guided toward expert-like behavior. With a well-designed state space, our method achieves real-world driving policy learning within practical training times. Results from both simulation and real-world experiments demonstrate that our framework enables safe, robust, and sample-efficient learning for autonomous driving.
- Abstract(参考訳): 強化学習(RL)による自律運転は大きな可能性を秘めている。
しかし、安全で効率的で堅牢な学習を必要とするため、実世界の環境でRLを適用することは依然として困難である。
人間の専門知識を学習プロセスに組み込むことは、リスクの高い探索を減らし、サンプル効率を向上させることで、これらの課題を克服するのに役立ちます。
本研究では,Human-Guided Distributional Soft Actor-Critic (H-DSAC)と呼ばれる,報酬のないアクティブなループ学習手法を提案する。
提案手法は,PVPとDSACを組み合わせることで,実環境における効率的かつ安全なトレーニングを実現する。
鍵となるイノベーションは、DSACフレームワーク内で分散プロキシ値関数を構築することである。
この関数は、人間の介入を必要とする専門家のデモンストレーションや罰則化アクションに、期待されるより高いリターンを割り当てることで、人間の意図を符号化する。
これらのラベルをラベルのない状態に外挿することで、このポリシーは専門家のような行動に効果的に導かれる。
提案手法は,よく設計された状態空間を用いて,実践訓練時間内に実世界の運転方針学習を実現する。
シミュレーションと実世界の両方の実験の結果から、我々のフレームワークは自律運転に安全で堅牢でサンプル効率のよい学習を可能にすることが示された。
関連論文リスト
- Confidence-Guided Human-AI Collaboration: Reinforcement Learning with Distributional Proxy Value Propagation for Autonomous Driving [1.4063588986150455]
本稿では,これらの制約を克服するために,信頼誘導型人間-AIコラボレーション(C-HAC)戦略を開発する。
C-HACは、人間との相互作用を最小限に抑えたヒト誘導政策の迅速かつ安定した学習を実現する。
様々な運転シナリオに対する実験により、C-HACは安全性、効率、全体的な性能において従来の方法よりも大幅に優れていたことが判明した。
論文 参考訳(メタデータ) (2025-06-04T04:31:10Z) - Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.807187711407621]
本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文 参考訳(メタデータ) (2024-01-06T08:30:14Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Efficient Learning of Safe Driving Policy via Human-AI Copilot
Optimization [38.21629972247463]
我々はHuman-AI Copilot Optimization (HACO)と呼ばれる新しいループ学習手法を開発した。
提案したHACOは、トライアル・アンド・エラー探査と人間の部分的なデモンストレーションの両方から、ハイパフォーマンスエージェントのトレーニングに有効に活用する。
実験により、HACOは安全な運転ベンチマークにおいて、かなり高い試料効率を達成することが示された。
論文 参考訳(メタデータ) (2022-02-17T06:29:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。