論文の概要: Efficient Learning of Safe Driving Policy via Human-AI Copilot
Optimization
- arxiv url: http://arxiv.org/abs/2202.10341v1
- Date: Thu, 17 Feb 2022 06:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-26 22:40:07.957987
- Title: Efficient Learning of Safe Driving Policy via Human-AI Copilot
Optimization
- Title(参考訳): 人間-AIコパイロット最適化による安全運転政策の効率的な学習
- Authors: Quanyi Li, Zhenghao Peng, Bolei Zhou
- Abstract要約: 我々はHuman-AI Copilot Optimization (HACO)と呼ばれる新しいループ学習手法を開発した。
提案したHACOは、トライアル・アンド・エラー探査と人間の部分的なデモンストレーションの両方から、ハイパフォーマンスエージェントのトレーニングに有効に活用する。
実験により、HACOは安全な運転ベンチマークにおいて、かなり高い試料効率を達成することが示された。
- 参考スコア(独自算出の注目度): 38.21629972247463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human intervention is an effective way to inject human knowledge into the
training loop of reinforcement learning, which can bring fast learning and
ensured training safety. Given the very limited budget of human intervention,
it remains challenging to design when and how human expert interacts with the
learning agent in the training. In this work, we develop a novel
human-in-the-loop learning method called Human-AI Copilot Optimization
(HACO).To allow the agent's sufficient exploration in the risky environments
while ensuring the training safety, the human expert can take over the control
and demonstrate how to avoid probably dangerous situations or trivial
behaviors. The proposed HACO then effectively utilizes the data both from the
trial-and-error exploration and human's partial demonstration to train a
high-performing agent. HACO extracts proxy state-action values from partial
human demonstration and optimizes the agent to improve the proxy values
meanwhile reduce the human interventions. The experiments show that HACO
achieves a substantially high sample efficiency in the safe driving benchmark.
HACO can train agents to drive in unseen traffic scenarios with a handful of
human intervention budget and achieve high safety and generalizability,
outperforming both reinforcement learning and imitation learning baselines with
a large margin. Code and demo videos are available at:
https://decisionforce.github.io/HACO/.
- Abstract(参考訳): 人間の介入は、人間知識を強化学習のトレーニングループに注入する効果的な方法であり、迅速な学習とトレーニング安全性の確保をもたらす。
人間の介入の予算が非常に限られているため、人間のエキスパートがトレーニングで学習エージェントと対話する時期と方法を設計することは依然として困難である。
本研究では,Human-AI Copilot Optimization (HACO)と呼ばれる新しいループ学習手法を開発した。
訓練の安全性を確保しつつ、危険な環境におけるエージェントの十分な探索を可能にするために、人間の専門家は制御を引き継ぎ、おそらく危険な状況や簡単な行動を避ける方法を示すことができる。
提案したHACOは、試行錯誤と人間の部分的なデモンストレーションの両方から、高性能エージェントの訓練に有効に活用する。
HACOは、部分的な人間のデモンストレーションからプロキシ状態-アクション値を抽出し、エージェントを最適化してプロキシ値を改善し、一方で人間の介入を減らす。
実験の結果,hacoは安全運転ベンチマークにおいて試料効率がかなり高いことがわかった。
HACOは、少数の人的介入予算で未確認の交通シナリオを運転するエージェントを訓練し、高い安全性と一般化性を実現し、強化学習と模倣学習ベースラインの両方を大きなマージンで上回る。
コードとデモビデオはhttps://decisionforce.github.io/haco/。
関連論文リスト
- Trustworthy Human-AI Collaboration: Reinforcement Learning with Human Feedback and Physics Knowledge for Safe Autonomous Driving [1.5361702135159845]
RLHF(Reinforcement Learning with Human Feedback)は、トレーニングの安全性とサンプリング効率を高める可能性から注目されている。
人間の学習プロセスに触発されて,人間フィードバックを用いた物理強化学習(PE-RLHF)を提案する。
PE-RLHFは、人間のフィードバック品質が低下しても、学習したポリシーが少なくとも物理ベースのポリシーと同様に機能することを保証します。
論文 参考訳(メタデータ) (2024-09-01T22:20:32Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.807187711407621]
本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文 参考訳(メタデータ) (2024-01-06T08:30:14Z) - Primitive Skill-based Robot Learning from Human Evaluative Feedback [28.046559859978597]
強化学習アルゴリズムは、現実世界環境における長期ロボット操作タスクを扱う際に、課題に直面している。
本稿では,人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習の2つのアプローチを活用する新しいフレームワークSEEDを提案する。
以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T20:48:30Z) - Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios [147.16925581385576]
シミュレーション学習と強化学習を組み合わせることで,運転方針の安全性と信頼性が大幅に向上することを示す。
都会の運転データ100万マイル以上でポリシーを訓練し、異なるレベルの衝突確率でグループ化されたテストシナリオにおける有効性を測定する。
論文 参考訳(メタデータ) (2022-12-21T23:59:33Z) - Minimizing Human Assistance: Augmenting a Single Demonstration for Deep
Reinforcement Learning [0.0]
簡単なバーチャルリアリティーシミュレーションによって収集された1つの人間の例を用いて、RLトレーニングを支援する。
提案手法は,人間的なデモを多数生成するために,1つのデモを増強する。
人間の例から学ぶにもかかわらず、エージェントは人間レベルのパフォーマンスに制約されない。
論文 参考訳(メタデータ) (2022-09-22T19:04:43Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Provably Safe Deep Reinforcement Learning for Robotic Manipulation in
Human Environments [8.751383865142772]
マニピュレータ上でのRLアルゴリズムの訓練および展開において,ISO認証による安全性を保証する遮蔽機構を提案する。
我々は、人間とマニピュレータの高速到達性解析を利用して、マニピュレータが人間の範囲内に入る前に完全に停止することを保証する。
論文 参考訳(メタデータ) (2022-05-12T18:51:07Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Adversarial Training is Not Ready for Robot Learning [55.493354071227174]
対人訓練は,ノルム有界摂動に耐性のあるディープラーニングモデルを訓練する有効な方法である。
敵訓練により得られたニューラルコントローラが3種類の欠陥を受けることを理論的および実験的に示す。
この結果から, ロボット学習にはまだ対応できていないことが示唆された。
論文 参考訳(メタデータ) (2021-03-15T07:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。