論文の概要: Offline Reinforcement Learning using Human-Aligned Reward Labeling for Autonomous Emergency Braking in Occluded Pedestrian Crossing
- arxiv url: http://arxiv.org/abs/2504.08704v1
- Date: Fri, 11 Apr 2025 17:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:17:41.398523
- Title: Offline Reinforcement Learning using Human-Aligned Reward Labeling for Autonomous Emergency Braking in Occluded Pedestrian Crossing
- Title(参考訳): 擬似歩行者交叉における自律的緊急制動のための人間適応リワードラベリングを用いたオフライン強化学習
- Authors: Vinal Asodia, Zhenhua Feng, Saber Fallah,
- Abstract要約: 本稿では,人間に適応した報酬ラベルを生成するための新しいパイプラインを提案する。
パイプラインは、セマンティックセグメンテーションマップを解析して活性化される適応安全コンポーネントを組み込んでいる。
その結果,生成した報酬ラベルはシミュレーション報酬ラベルと密接に一致していることがわかった。
- 参考スコア(独自算出の注目度): 13.342097008372479
- License:
- Abstract: Effective leveraging of real-world driving datasets is crucial for enhancing the training of autonomous driving systems. While Offline Reinforcement Learning enables the training of autonomous vehicles using such data, most available datasets lack meaningful reward labels. Reward labeling is essential as it provides feedback for the learning algorithm to distinguish between desirable and undesirable behaviors, thereby improving policy performance. This paper presents a novel pipeline for generating human-aligned reward labels. The proposed approach addresses the challenge of absent reward signals in real-world datasets by generating labels that reflect human judgment and safety considerations. The pipeline incorporates an adaptive safety component, activated by analyzing semantic segmentation maps, allowing the autonomous vehicle to prioritize safety over efficiency in potential collision scenarios. The proposed pipeline is applied to an occluded pedestrian crossing scenario with varying levels of pedestrian traffic, using synthetic and simulation data. The results indicate that the generated reward labels closely match the simulation reward labels. When used to train the driving policy using Behavior Proximal Policy Optimisation, the results are competitive with other baselines. This demonstrates the effectiveness of our method in producing reliable and human-aligned reward signals, facilitating the training of autonomous driving systems through Reinforcement Learning outside of simulation environments and in alignment with human values.
- Abstract(参考訳): 実世界の運転データセットを効果的に活用することは、自律運転システムのトレーニングを強化する上で重要である。
オフライン強化学習はそのようなデータを使って自動運転車のトレーニングを可能にするが、ほとんどの利用可能なデータセットには意味のある報酬ラベルがない。
学習アルゴリズムが望ましい行動と望ましくない行動とを区別し、政策性能を改善するためのフィードバックを提供するため、リワードラベリングは不可欠である。
本稿では,人間に適応した報酬ラベルを生成するための新しいパイプラインを提案する。
提案手法は,人間の判断や安全性を反映したラベルを生成することで,実世界のデータセットにおける報酬信号の欠如に対処する。
パイプラインにはセマンティックセグメンテーションマップを解析してアクティベートされたアダプティブな安全コンポーネントが含まれており、衝突のシナリオにおける安全性よりも、自動運転車が安全性を優先することができる。
提案したパイプラインは, 歩行者の交通量の異なる閉塞歩行者横断シナリオに対して, 合成データとシミュレーションデータを用いて適用した。
その結果,生成した報酬ラベルはシミュレーション報酬ラベルと密接に一致していることがわかった。
行動プロキシポリシー最適化を使用して運転ポリシーをトレーニングする場合、結果は他のベースラインと競合する。
本研究は,シミュレーション環境外の強化学習による自律運転システムの訓練や人的価値の調整を円滑に行うことを目的として,信頼性と人的整合性のある報酬信号を生成する方法の有効性を示すものである。
関連論文リスト
- Traffic and Safety Rule Compliance of Humans in Diverse Driving Situations [48.924085579865334]
安全な運転プラクティスを再現する自律システムを開発するためには、人間のデータを分析することが不可欠だ。
本稿では,複数の軌道予測データセットにおける交通・安全規則の適合性の比較評価を行う。
論文 参考訳(メタデータ) (2024-11-04T09:21:00Z) - DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving [81.04174379726251]
本稿では,DriveCoTというエンド・ツー・エンドの運転データセットを総合的に収集する。
センサーデータ、制御決定、および推論プロセスを示すチェーン・オブ・シークレット・ラベルが含まれている。
我々は,私たちのデータセットに基づいてトレーニングされたDriveCoT-Agentと呼ばれるベースラインモデルを提案し,連鎖予測と最終決定を生成する。
論文 参考訳(メタデータ) (2024-03-25T17:59:01Z) - FedDriveScore: Federated Scoring Driving Behavior with a Mixture of
Metric Distributions [6.195950768412144]
集中型学習に代わるプライバシフレンドリな代替手段として,自動車とクラウドのコラボレーションが提案されている。
このフレームワークは、グローバルスコアリングモデルの性能劣化を低減するために、一貫したスコアリング手法のフェデレーションバージョンを含む。
論文 参考訳(メタデータ) (2024-01-13T02:15:41Z) - Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning
in Surgical Robotic Environments [4.2569494803130565]
我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。
このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
論文 参考訳(メタデータ) (2023-10-13T03:39:15Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Exploring the trade off between human driving imitation and safety for
traffic simulation [0.34410212782758043]
運転方針の学習において,人間の運転の模倣と安全維持との間にはトレードオフが存在することを示す。
両目的を協調的に改善する多目的学習アルゴリズム(MOPPO)を提案する。
論文 参考訳(メタデータ) (2022-08-09T14:30:19Z) - Tackling Real-World Autonomous Driving using Deep Reinforcement Learning [63.3756530844707]
本研究では,加速と操舵角度を予測するニューラルネットワークを学習するモデルレスディープ強化学習プランナを提案する。
実際の自動運転車にシステムをデプロイするために、我々は小さなニューラルネットワークで表されるモジュールも開発する。
論文 参考訳(メタデータ) (2022-07-05T16:33:20Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - Deep Structured Reactive Planning [94.92994828905984]
自動運転のための新しいデータ駆動型リアクティブ計画目標を提案する。
本モデルは,非常に複雑な操作を成功させる上で,非反応性変種よりも優れることを示す。
論文 参考訳(メタデータ) (2021-01-18T01:43:36Z) - Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning
with Application to Autonomous Driving [35.44498286245894]
本稿では,効率的なサンプリングに基づく最大エントロピー逆強化学習(IRL)アルゴリズムを提案する。
提案アルゴリズムは,非対話的シナリオと対話的シナリオの両方を含む実運転データに基づいて評価する。
論文 参考訳(メタデータ) (2020-06-22T01:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。