論文の概要: Confidence-Guided Human-AI Collaboration: Reinforcement Learning with Distributional Proxy Value Propagation for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.03568v1
- Date: Wed, 04 Jun 2025 04:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.153902
- Title: Confidence-Guided Human-AI Collaboration: Reinforcement Learning with Distributional Proxy Value Propagation for Autonomous Driving
- Title(参考訳): 信頼指導型人間AI協調:自律運転のための分布プロキシ値伝搬を用いた強化学習
- Authors: Li Zeqiao, Wang Yijing, Wang Haoyu, Li Zheng, Li Peng, Zuo zhiqiang, Hu Chuan,
- Abstract要約: 本稿では,これらの制約を克服するために,信頼誘導型人間-AIコラボレーション(C-HAC)戦略を開発する。
C-HACは、人間との相互作用を最小限に抑えたヒト誘導政策の迅速かつ安定した学習を実現する。
様々な運転シナリオに対する実験により、C-HACは安全性、効率、全体的な性能において従来の方法よりも大幅に優れていたことが判明した。
- 参考スコア(独自算出の注目度): 1.4063588986150455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving promises significant advancements in mobility, road safety and traffic efficiency, yet reinforcement learning and imitation learning face safe-exploration and distribution-shift challenges. Although human-AI collaboration alleviates these issues, it often relies heavily on extensive human intervention, which increases costs and reduces efficiency. This paper develops a confidence-guided human-AI collaboration (C-HAC) strategy to overcome these limitations. First, C-HAC employs a distributional proxy value propagation method within the distributional soft actor-critic (DSAC) framework. By leveraging return distributions to represent human intentions C-HAC achieves rapid and stable learning of human-guided policies with minimal human interaction. Subsequently, a shared control mechanism is activated to integrate the learned human-guided policy with a self-learning policy that maximizes cumulative rewards. This enables the agent to explore independently and continuously enhance its performance beyond human guidance. Finally, a policy confidence evaluation algorithm capitalizes on DSAC's return distribution networks to facilitate dynamic switching between human-guided and self-learning policies via a confidence-based intervention function. This ensures the agent can pursue optimal policies while maintaining safety and performance guarantees. Extensive experiments across diverse driving scenarios reveal that C-HAC significantly outperforms conventional methods in terms of safety, efficiency, and overall performance, achieving state-of-the-art results. The effectiveness of the proposed method is further validated through real-world road tests in complex traffic conditions. The videos and code are available at: https://github.com/lzqw/C-HAC.
- Abstract(参考訳): 自動運転は、移動性、道路安全、交通効率の大幅な向上を約束するが、強化学習と模倣学習は安全な探索と分散シフトの課題に直面している。
人間とAIのコラボレーションはこれらの問題を緩和するが、コストを増大させ効率を低下させる広範囲な人間の介入に大きく依存することが多い。
本稿では,これらの制約を克服するために,信頼誘導型人間-AIコラボレーション(C-HAC)戦略を開発する。
第一に、C-HACは分散ソフトアクター・クリティカル(DSAC)フレームワーク内での分散プロキシ値の伝搬法を用いる。
ヒトの意図を表現するためにリターン分布を活用することで、C-HACは人間との相互作用を最小限に抑えたヒト誘導政策の迅速かつ安定した学習を実現する。
その後、学習した人間誘導政策と累積報酬を最大化する自己学習政策を統合するために共有制御機構が活性化される。
これにより、エージェントは独立して探索し、人間の指導を超えたパフォーマンスを継続的に向上することができる。
最後に、ポリシ信頼度評価アルゴリズムは、DSACの戻り分布ネットワークを利用して、信頼に基づく介入機能を介して、人間誘導型ポリシーと自己学習型ポリシーの動的切り替えを容易にする。
これにより、エージェントは安全と性能の保証を維持しながら最適なポリシーを追求できる。
多様な運転シナリオにわたる大規模な実験により、C-HACは安全性、効率、全体的な性能において従来の方法よりも大幅に優れ、最先端の結果が得られている。
提案手法の有効性は,複雑な交通条件下での実地道路試験によりさらに検証される。
ビデオとコードは、https://github.com/lzqw/C-HAC.comで公開されている。
関連論文リスト
- Interactive Double Deep Q-network: Integrating Human Interventions and Evaluative Predictions in Reinforcement Learning of Autonomous Driving [16.379623042562415]
本研究では、強化学習(RL)を強化するHuman-in-the-Loop(HITL)アプローチであるInteractive Double Deep Q-network(iDDQN)を導入する。
提案したiDDQN法は,Q値更新方程式を修正して,人間とエージェントのアクションを統合することで,政策開発のための協調的アプローチを確立する。
シミュレーションされた自律走行シナリオにおける実証的な結果は、iDDQNが確立されたアプローチより優れていることを示している。
論文 参考訳(メタデータ) (2025-04-28T05:25:18Z) - Trustworthy Human-AI Collaboration: Reinforcement Learning with Human Feedback and Physics Knowledge for Safe Autonomous Driving [1.5361702135159845]
RLHF(Reinforcement Learning with Human Feedback)は、トレーニングの安全性とサンプリング効率を高める可能性から注目されている。
人間の学習プロセスに触発されて,人間フィードバックを用いた物理強化学習(PE-RLHF)を提案する。
PE-RLHFは、人間のフィードバック品質が低下しても、学習したポリシーが少なくとも物理ベースのポリシーと同様に機能することを保証します。
論文 参考訳(メタデータ) (2024-09-01T22:20:32Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - Adversarial Driving Behavior Generation Incorporating Human Risk
Cognition for Autonomous Vehicle Evaluation [23.476885023669524]
本稿では,背景車両の対向運転行動を生成する新しい枠組みの開発に焦点をあてる。
相関行動は累積予測理論(CPT)を組み込んだ強化学習(RL)アプローチによって学習される
高忠実度ハードウェア・イン・ザ・ループ(HiL)プラットフォーム上で,カットインシナリオの比較ケーススタディを行った。
論文 参考訳(メタデータ) (2023-09-29T04:09:46Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。