論文の概要: Multi-Agent Reinforcement Learning for Safe Autonomous Driving Under Pedestrian Behavioral Uncertainty
- arxiv url: http://arxiv.org/abs/2605.20255v1
- Date: Mon, 18 May 2026 12:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.240623
- Title: Multi-Agent Reinforcement Learning for Safe Autonomous Driving Under Pedestrian Behavioral Uncertainty
- Title(参考訳): 歩行者の行動不確実性下での安全な自律運転のためのマルチエージェント強化学習
- Authors: Prakash Aryan, Kaushik Raghupathruni, Timo Kehrer, Sebastiano Panichella,
- Abstract要約: 本稿では,SDCと12人の歩行者をマルチエージェント・プロキシ・ポリシー・オプティマイゼーションを用いて協調訓練するMARL環境について述べる。
500エピソード評価では、最高のルールベースラインに対する35%の目標と33%の衝突に対して、共同訓練されたSDCは14%の衝突率で78%の目標に達した。
MARLの歩行者との共同訓練は、SDCが高速に接近したのを待っていた歩行者が、シングルエージェントのRLと比較して30%の衝突を減らした。
- 参考スコア(独自算出の注目度): 3.682030314397244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulation-based testing of self-driving cars (SDCs) typically relies on scripted or simplified pedestrian models that do not capture the heterogeneity and uncertainty of real human crossing behavior. This limits the realism of safety assessments, especially in scenarios involving jaywalking, which is governed by latent personality traits that the vehicle cannot observe. We hypothesize that jointly training pedestrians and the SDC with multi-agent reinforcement learning (MARL) produces more realistic interaction scenarios than training the SDC against fixed pedestrian policies, and that the resulting behavior gap between predictable and unpredictable crossings can be measured directly from trajectories. This paper describes a MARL environment in which an SDC and 12 pedestrians are co-trained using Multi-Agent Proximal Policy Optimization (MAPPO). Pedestrian locomotion follows scripted Dijkstra pathfinding, while an RL policy controls high-level go/wait decisions. Jaywalking probability depends on a per-pedestrian personality trait sampled at episode start and hidden from the SDC. In 500-episode evaluations, the co-trained SDC reached 78% of goals with a 14% collision rate, compared to 35% goals and 33% collisions for the best rule-based baseline. A speed differential metric shows that the SDC traveled 2.65 m/s faster near jaywalkers than near crosswalk users at close range (0-3 m), indicating that jaywalking encounters were not anticipated. Jaywalking accounted for 13% of crossing events but was associated with 62% of collisions. Co-training with MARL pedestrians reduced collisions by 30% relative to single-agent RL, as pedestrians learned to wait when the SDC approached at speed.
- Abstract(参考訳): シミュレーションに基づく自動運転車(SDC)のテストは、典型的には、実際の人間の横断行動の不均一性と不確実性を捉えないスクリプト化されたまたは単純化された歩行者モデルに依存している。
これは安全性評価の現実性を制限するもので、特に、車両が観察できない潜伏した性格特性によって支配されるジェイウォーキングを含むシナリオにおいてである。
我々は、歩行者とSDCをMARL(Multi-agent reinforcement learning)で共同訓練することで、SDCが固定された歩行者ポリシーに対して訓練するよりも現実的な対話シナリオが生まれることを仮定し、予測不可能な交差点と予測不可能な交差点の間の行動ギャップを軌跡から直接測定できると仮定した。
本稿では,SDCと12人の歩行者をMAPPO(Multi-Agent Proximal Policy Optimization)を用いて協調訓練するMARL環境について述べる。
歩行者の移動はDijkstraパスフィニングのスクリプトに従っており、RLポリシーは高レベルのgo/wait決定を制御する。
ジェイウォーキングの確率は、エピソード開始時にサンプリングされ、SDCから隠された歩行者当たりの性格特性に依存する。
500エピソード評価では、最高のルールベースラインに対する35%の目標と33%の衝突に対して、共同訓練されたSDCは14%の衝突率で78%の目標に達した。
速度差測定では、SDCは近距離 (0-3 m) の横断歩道利用者よりも2.65m/s速かった。
ジェイウォーキングは交差する出来事の13%を占めていたが、衝突の62%に関係していた。
MARLの歩行者との共同訓練は、SDCが高速に接近したのを待っていた歩行者が、シングルエージェントのRLと比較して30%の衝突を減らした。
関連論文リスト
- Pedestrian-Aware LLM-Driven Behavioral Planning for Autonomous Vehicles [5.343135467323389]
歩行者対応行動計画のための大規模言語モデル(LLM)に基づく意思決定フレームワーク。
システムは、構造化されたシーンの観察を自然言語による推論のプロンプトに変換し、LLMは歩行者の意図を推測し、リスクを予測し、慎重な戦術的な運転決定を生成する。
本研究では, 予期せぬ歩行, ターンバック・クロス, ためらい, 双方向横断など, 複数の歩行者行動シナリオにおけるSUMOの枠組みを評価した。
論文 参考訳(メタデータ) (2026-05-16T07:41:42Z) - Autonomous Vehicle Collision Avoidance With Racing Parameterized Deep Reinforcement Learning [73.88859384645264]
道路交通事故は世界中の交通事故の主な原因である。
米国では、人間のエラーが94%のクラッシュを引き起こし、7000人以上の歩行者が死亡し、年間500億ドルのコストがかかる。
本稿では,Dreep Reinforcement Learning (DRL) 衝突回避政策のアウト・オブ・ディストリビューションをパラメータ化する。
2つのポリシーが評価され、デフォルトのユニディレクションと、他の車と反対方向にナビゲートする逆方向のバリエーションが評価される。
論文 参考訳(メタデータ) (2026-04-17T21:11:39Z) - SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。
本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文 参考訳(メタデータ) (2025-10-20T19:53:02Z) - Uncertainty-Aware DRL for Autonomous Vehicle Crowd Navigation in Shared Space [3.487370856323828]
本研究は,モデルフリーDRLアルゴリズムのトレーニングにおいて,予測歩行者状態の不確かさを取り入れた統合予測と計画手法を導入する。
新たな報酬関数により、AVは歩行者の個人的な空間を尊重し、接近中の速度を減少させ、予測された経路との衝突確率を最小化する。
その結果, 衝突速度は40%減少し, 予測の不確実性を考慮しない技術モデルと比較すると, 歩行者との距離は15%増加した。
論文 参考訳(メタデータ) (2024-05-22T20:09:21Z) - iPLAN: Intent-Aware Planning in Heterogeneous Traffic via Distributed
Multi-Agent Reinforcement Learning [57.24340061741223]
本稿では,高密度および不均一な交通シナリオにおける軌跡や意図を予測できる分散マルチエージェント強化学習(MARL)アルゴリズムを提案する。
インテント対応プランニングのアプローチであるiPLANにより、エージェントは近くのドライバーの意図をローカルな観察からのみ推測できる。
論文 参考訳(メタデータ) (2023-06-09T20:12:02Z) - Cross or Wait? Predicting Pedestrian Interaction Outcomes at Unsignalized Crossings [12.800489342833275]
我々は機械学習を用いて歩行者横断決定、横断開始時間(CIT)、横断時間(CD)などの歩行者横断行動を予測する。
ロジスティック回帰ベースラインモデルと比較して,提案したニューラルネットワークモデルでは予測精度が4.46%,F1スコアが3.23%向上した。
また、線形回帰モデルと比較して、CITとCDの根平均二乗誤差(RMSE)を21.56%、30.14%削減する。
論文 参考訳(メタデータ) (2023-04-17T13:20:04Z) - Modeling Interactions of Autonomous Vehicles and Pedestrians with Deep
Multi-Agent Reinforcement Learning for Collision Avoidance [20.542143534865154]
本研究では,対話系列をマルコフ決定過程 (MDP) としてモデル化し,深部強化学習 (DRL) アルゴリズムを用いて解析する。
知的歩行者行動の異なるPCAMシステムは,エージェントの衝突速度と結果の交通流効率に応じてベンチマークを行う。
その結果, AV は実験条件の大部分で完全に衝突を緩和できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T17:06:39Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。