論文の概要: Multi-Agent Reinforcement Learning for Safe Autonomous Driving Under Pedestrian Behavioral Uncertainty
- arxiv url: http://arxiv.org/abs/2605.20255v2
- Date: Mon, 25 May 2026 19:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.77914
- Title: Multi-Agent Reinforcement Learning for Safe Autonomous Driving Under Pedestrian Behavioral Uncertainty
- Title(参考訳): 歩行者の行動不確実性下での安全な自律運転のためのマルチエージェント強化学習
- Authors: Prakash Aryan, Kaushik Raghupathruni, Timo Kehrer, Sebastiano Panichella,
- Abstract要約: MAPPO(Multi-Agent Proximal Policy Optimization)を用いたSDCと12人の歩行者の共同訓練
500エピソード評価では、共同訓練したSDCは14%の衝突率で78%に達し、最高のルールベースラインでは35%/33%に達した。
ジェイウォーキングは交差する事象の13%で、衝突の62%で、衝突を1歳児のRLと比較して30%減らした。
- 参考スコア(独自算出の注目度): 3.682030314397244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulation-based testing of self-driving cars (SDCs) typically relies on scripted pedestrian models that do not capture the heterogeneity and uncertainty of real crossing behavior, limiting the realism of safety assessments, especially for jaywalking, which is governed by latent personality traits the vehicle cannot observe. We hypothesize that jointly training pedestrians and the SDC with multi-agent reinforcement learning (MARL) yields more realistic interaction scenarios than training against fixed pedestrian policies, and that the behavior gap between predictable and unpredictable crossings can be measured directly from trajectories. We co-train an SDC and 12 pedestrians using Multi-Agent Proximal Policy Optimization (MAPPO): pedestrian locomotion follows scripted Dijkstra pathfinding while an RL policy controls high-level go/wait decisions, and jaywalking probability depends on a per-pedestrian trait sampled at episode start and hidden from the SDC. In 500-episode evaluations, the co-trained SDC reached 78% of goals with a 14% collision rate, versus 35%/33% for the best rule-based baseline. A speed differential metric shows the SDC traveled 2.65 m/s faster near jaywalkers than near crosswalk users at close range (0-3 m), indicating jaywalking encounters were not anticipated. Jaywalking was 13% of crossing events but 62% of collisions, and co-training reduced collisions by 30% relative to single-agent RL as pedestrians learned to wait when the SDC approached at speed.
- Abstract(参考訳): シミュレーションに基づく自動運転車(SDC)のテストは、一般的に、実際の横断行動の不均一性や不確実性を捉えないスクリプト化された歩行者モデルに依存し、安全評価の現実性を制限する。
我々は、歩行者とSDCをMARL(Multi-agent reinforcement learning)で共同訓練することで、固定された歩行者政策に対する訓練よりも現実的な対話シナリオが得られ、予測不可能な交差点と予測不能な交差点の挙動ギャップを軌跡から直接測定できると仮定する。
マルチエージェント・プロキシ・ポリシー・最適化(MAPPO: Multi-Agent Proximal Policy Optimization)を用いてSDCと12人の歩行者を共同訓練し、歩行者の移動はスクリプト化されたDijkstraパスフィニングに従い、RLポリシーはハイレベルなゴー/ウェイト決定を制御し、ジェイウォーキング確率はエピソード開始時にサンプリングされ、SDCから隠された歩行者の特性に依存する。
500エピソード評価では、共同訓練したSDCは14%の衝突率で78%に達し、最高のルールベースラインでは35%/33%に達した。
速度差測定では、SDCは近距離 (0-3 m) の横断歩道利用者よりも2.65m/s速かった。
ジェイウォークは横断イベントの13%、衝突の62%であり、SDCが高速に接近した時に歩行者が待つことを覚えたため、衝突を1人乗りのRLと比較して30%減らした。
関連論文リスト
- Pedestrian-Aware LLM-Driven Behavioral Planning for Autonomous Vehicles [5.343135467323389]
歩行者対応行動計画のための大規模言語モデル(LLM)に基づく意思決定フレームワーク。
システムは、構造化されたシーンの観察を自然言語による推論のプロンプトに変換し、LLMは歩行者の意図を推測し、リスクを予測し、慎重な戦術的な運転決定を生成する。
本研究では, 予期せぬ歩行, ターンバック・クロス, ためらい, 双方向横断など, 複数の歩行者行動シナリオにおけるSUMOの枠組みを評価した。
論文 参考訳(メタデータ) (2026-05-16T07:41:42Z) - Autonomous Vehicle Collision Avoidance With Racing Parameterized Deep Reinforcement Learning [73.88859384645264]
道路交通事故は世界中の交通事故の主な原因である。
米国では、人間のエラーが94%のクラッシュを引き起こし、7000人以上の歩行者が死亡し、年間500億ドルのコストがかかる。
本稿では,Dreep Reinforcement Learning (DRL) 衝突回避政策のアウト・オブ・ディストリビューションをパラメータ化する。
2つのポリシーが評価され、デフォルトのユニディレクションと、他の車と反対方向にナビゲートする逆方向のバリエーションが評価される。
論文 参考訳(メタデータ) (2026-04-17T21:11:39Z) - SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。
本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文 参考訳(メタデータ) (2025-10-20T19:53:02Z) - Uncertainty-Aware DRL for Autonomous Vehicle Crowd Navigation in Shared Space [3.487370856323828]
本研究は,モデルフリーDRLアルゴリズムのトレーニングにおいて,予測歩行者状態の不確かさを取り入れた統合予測と計画手法を導入する。
新たな報酬関数により、AVは歩行者の個人的な空間を尊重し、接近中の速度を減少させ、予測された経路との衝突確率を最小化する。
その結果, 衝突速度は40%減少し, 予測の不確実性を考慮しない技術モデルと比較すると, 歩行者との距離は15%増加した。
論文 参考訳(メタデータ) (2024-05-22T20:09:21Z) - iPLAN: Intent-Aware Planning in Heterogeneous Traffic via Distributed
Multi-Agent Reinforcement Learning [57.24340061741223]
本稿では,高密度および不均一な交通シナリオにおける軌跡や意図を予測できる分散マルチエージェント強化学習(MARL)アルゴリズムを提案する。
インテント対応プランニングのアプローチであるiPLANにより、エージェントは近くのドライバーの意図をローカルな観察からのみ推測できる。
論文 参考訳(メタデータ) (2023-06-09T20:12:02Z) - Cross or Wait? Predicting Pedestrian Interaction Outcomes at Unsignalized Crossings [12.800489342833275]
我々は機械学習を用いて歩行者横断決定、横断開始時間(CIT)、横断時間(CD)などの歩行者横断行動を予測する。
ロジスティック回帰ベースラインモデルと比較して,提案したニューラルネットワークモデルでは予測精度が4.46%,F1スコアが3.23%向上した。
また、線形回帰モデルと比較して、CITとCDの根平均二乗誤差(RMSE)を21.56%、30.14%削減する。
論文 参考訳(メタデータ) (2023-04-17T13:20:04Z) - Modeling Interactions of Autonomous Vehicles and Pedestrians with Deep
Multi-Agent Reinforcement Learning for Collision Avoidance [20.542143534865154]
本研究では,対話系列をマルコフ決定過程 (MDP) としてモデル化し,深部強化学習 (DRL) アルゴリズムを用いて解析する。
知的歩行者行動の異なるPCAMシステムは,エージェントの衝突速度と結果の交通流効率に応じてベンチマークを行う。
その結果, AV は実験条件の大部分で完全に衝突を緩和できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T17:06:39Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。