論文の概要: Trustworthy Human-AI Collaboration: Reinforcement Learning with Human Feedback and Physics Knowledge for Safe Autonomous Driving
- arxiv url: http://arxiv.org/abs/2409.00858v1
- Date: Sun, 1 Sep 2024 22:20:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 08:40:50.606384
- Title: Trustworthy Human-AI Collaboration: Reinforcement Learning with Human Feedback and Physics Knowledge for Safe Autonomous Driving
- Title(参考訳): 信頼できるAIコラボレーション:人間のフィードバックによる強化学習と安全な自律運転のための物理知識
- Authors: Zilin Huang, Zihao Sheng, Lei Shi, Sikai Chen,
- Abstract要約: RLHF(Reinforcement Learning with Human Feedback)は、トレーニングの安全性とサンプリング効率を高める可能性から注目されている。
人間の学習プロセスに触発されて,人間フィードバックを用いた物理強化学習(PE-RLHF)を提案する。
PE-RLHFは、人間のフィードバック品質が低下しても、学習したポリシーが少なくとも物理ベースのポリシーと同様に機能することを保証します。
- 参考スコア(独自算出の注目度): 2.5939564910943775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of autonomous driving, developing safe and trustworthy autonomous driving policies remains a significant challenge. Recently, Reinforcement Learning with Human Feedback (RLHF) has attracted substantial attention due to its potential to enhance training safety and sampling efficiency. Nevertheless, existing RLHF-enabled methods often falter when faced with imperfect human demonstrations, potentially leading to training oscillations or even worse performance than rule-based approaches. Inspired by the human learning process, we propose Physics-enhanced Reinforcement Learning with Human Feedback (PE-RLHF). This novel framework synergistically integrates human feedback (e.g., human intervention and demonstration) and physics knowledge (e.g., traffic flow model) into the training loop of reinforcement learning. The key advantage of PE-RLHF is its guarantee that the learned policy will perform at least as well as the given physics-based policy, even when human feedback quality deteriorates, thus ensuring trustworthy safety improvements. PE-RLHF introduces a Physics-enhanced Human-AI (PE-HAI) collaborative paradigm for dynamic action selection between human and physics-based actions, employs a reward-free approach with a proxy value function to capture human preferences, and incorporates a minimal intervention mechanism to reduce the cognitive load on human mentors. Extensive experiments across diverse driving scenarios demonstrate that PE-RLHF significantly outperforms traditional methods, achieving state-of-the-art (SOTA) performance in safety, efficiency, and generalizability, even with varying quality of human feedback. The philosophy behind PE-RLHF not only advances autonomous driving technology but can also offer valuable insights for other safety-critical domains. Demo video and code are available at: \https://zilin-huang.github.io/PE-RLHF-website/
- Abstract(参考訳): 自動運転の分野では、安全で信頼性の高い自動運転政策の開発は依然として大きな課題である。
近年,RLHF(Reinforcement Learning with Human Feedback)が注目されている。
それでも、既存のRLHF対応の方法は、不完全な人間のデモンストレーションに直面した時にしばしば失敗し、トレーニングの振動や、ルールベースのアプローチよりもパフォーマンスが悪くなる可能性がある。
人間の学習プロセスに触発されて,人間フィードバックを用いた物理強化学習(PE-RLHF)を提案する。
このフレームワークは、人間からのフィードバック(例えば、人間の介入とデモンストレーション)と物理知識(例えば、交通流モデル)を、強化学習のトレーニングループに相乗的に統合する。
PE-RLHFの鍵となる利点は、人間のフィードバック品質が悪化しても、学習されたポリシーが少なくとも物理ベースのポリシーと同様に機能することを保証することで、信頼性の高い安全性の向上が保証されることである。
PE-RLHFは、人間と物理学に基づくアクション間の動的アクション選択のための物理強化されたHuman-AI(PE-HAI)協調パラダイムを導入し、人間の嗜好を捉えるためにプロキシ値関数を用いた報酬のないアプローチを採用し、人間のメンターに対する認知負荷を減らすために最小限の介入メカニズムを組み込んだ。
多様な運転シナリオにわたる大規模な実験により、PE-RLHFは従来の方法よりも大幅に優れ、安全性、効率、一般化性において、人間のフィードバックの質が変化しても、最先端(SOTA)のパフォーマンスを達成することが示されている。
PE-RLHFの背景にある哲学は、自動運転技術の発展だけでなく、他の安全上重要な領域にも価値ある洞察を与えることができる。
デモビデオとコードは以下の通りである。
関連論文リスト
- Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs [49.386699863989335]
大きな言語モデル(LLM)を訓練し、人間の効果的なアシスタントとして機能させるには、慎重に検討する必要がある。
有望なアプローチとして、人間からのフィードバック(RLHF)からの強化学習がある。
本稿では、強化学習原理のレンズを通してRLHFを分析し、その基礎を理解する。
論文 参考訳(メタデータ) (2024-04-12T15:54:15Z) - SELFI: Autonomous Self-Improvement with Reinforcement Learning for Social Navigation [54.97931304488993]
体験と対話し、改善する自己改善ロボットは、ロボットシステムの現実的な展開の鍵となる。
本研究では,オンラインロボット体験を活用したオンライン学習手法であるSELFIを提案する。
本研究では, 衝突回避の観点からの改善と, より社会的に順応する行動について報告する。
論文 参考訳(メタデータ) (2024-03-01T21:27:03Z) - Stable and Safe Human-aligned Reinforcement Learning through Neural Ordinary Differential Equations [1.5413714916429737]
本稿では、このようなヒューマンアライメントタスクに対して、安全性と安定性の定義を提供する。
ニューラル常微分方程式(NODE)を用いて人やロボットの動きを予測するアルゴリズムを提案する。
シミュレーションの結果、制御されたロボットが、より少ない安全性違反で望ましい目標状態に達するのを助けることが示される。
論文 参考訳(メタデータ) (2024-01-23T23:50:19Z) - HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.807187711407621]
本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文 参考訳(メタデータ) (2024-01-06T08:30:14Z) - Safe RLHF: Safe Reinforcement Learning from Human Feedback [16.69413517494355]
本稿では,人的価値アライメントのための新しいアルゴリズムである,人的フィードバックからの安全強化学習(Safe RLHF)を提案する。
安全RLHFは、役に立つことと無害性に関する人間の嗜好を明示的に分離し、クラウドワーカーの緊張に対する混乱を効果的に回避する。
モデル性能を高めながら有害な応答を緩和する優れた能力を示す。
論文 参考訳(メタデータ) (2023-10-19T14:22:03Z) - Primitive Skill-based Robot Learning from Human Evaluative Feedback [28.046559859978597]
強化学習アルゴリズムは、現実世界環境における長期ロボット操作タスクを扱う際に、課題に直面している。
本稿では,人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習の2つのアプローチを活用する新しいフレームワークSEEDを提案する。
以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T20:48:30Z) - Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios [147.16925581385576]
シミュレーション学習と強化学習を組み合わせることで,運転方針の安全性と信頼性が大幅に向上することを示す。
都会の運転データ100万マイル以上でポリシーを訓練し、異なるレベルの衝突確率でグループ化されたテストシナリオにおける有効性を測定する。
論文 参考訳(メタデータ) (2022-12-21T23:59:33Z) - Efficient Learning of Safe Driving Policy via Human-AI Copilot
Optimization [38.21629972247463]
我々はHuman-AI Copilot Optimization (HACO)と呼ばれる新しいループ学習手法を開発した。
提案したHACOは、トライアル・アンド・エラー探査と人間の部分的なデモンストレーションの両方から、ハイパフォーマンスエージェントのトレーニングに有効に活用する。
実験により、HACOは安全な運転ベンチマークにおいて、かなり高い試料効率を達成することが示された。
論文 参考訳(メタデータ) (2022-02-17T06:29:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。