論文の概要: Cooperative Advisory Residual Policies for Congestion Mitigation
- arxiv url: http://arxiv.org/abs/2407.00553v1
- Date: Sun, 30 Jun 2024 01:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 02:36:46.480584
- Title: Cooperative Advisory Residual Policies for Congestion Mitigation
- Title(参考訳): 渋滞緩和のための共同諮問・残留政策
- Authors: Aamir Hasan, Neeloy Chakraborty, Haonan Chen, Jung-Hoon Cho, Cathy Wu, Katherine Driggs-Campbell,
- Abstract要約: 我々は協調的な諮問システムに利用できる学習済みの残留政策のクラスを開発する。
当社のポリシーは、多様なドライバーの振る舞いを考慮に入れながら、交通渋滞を軽減する方法でドライバーに振る舞うことを推奨している。
我々のアプローチは、異なるドライバーの行動に適応しながら、渋滞を軽減することに成功しました。
- 参考スコア(独自算出の注目度): 11.33450610735004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fleets of autonomous vehicles can mitigate traffic congestion through simple actions, thus improving many socioeconomic factors such as commute time and gas costs. However, these approaches are limited in practice as they assume precise control over autonomous vehicle fleets, incur extensive installation costs for a centralized sensor ecosystem, and also fail to account for uncertainty in driver behavior. To this end, we develop a class of learned residual policies that can be used in cooperative advisory systems and only require the use of a single vehicle with a human driver. Our policies advise drivers to behave in ways that mitigate traffic congestion while accounting for diverse driver behaviors, particularly drivers' reactions to instructions, to provide an improved user experience. To realize such policies, we introduce an improved reward function that explicitly addresses congestion mitigation and driver attitudes to advice. We show that our residual policies can be personalized by conditioning them on an inferred driver trait that is learned in an unsupervised manner with a variational autoencoder. Our policies are trained in simulation with our novel instruction adherence driver model, and evaluated in simulation and through a user study (N=16) to capture the sentiments of human drivers. Our results show that our approaches successfully mitigate congestion while adapting to different driver behaviors, with up to 20% and 40% improvement as measured by a combination metric of speed and deviations in speed across time over baselines in our simulation tests and user study, respectively. Our user study further shows that our policies are human-compatible and personalize to drivers.
- Abstract(参考訳): 自動運転車の艦隊は単純な行動を通じて交通渋滞を緩和し、通勤時間やガスコストなどの社会経済的要因を改善できる。
しかし、これらのアプローチは、自律走行車両の正確な制御、集中型センサーエコシステムの設置コストの増大、運転者の行動の不確実性を考慮できないため、実際には制限されている。
この目的のために、我々は、協力的な諮問システムで使用でき、人間ドライバーとの1台の車両の使用しか必要としない、学習された残留ポリシーのクラスを開発する。
当社のポリシーでは,ドライバの多様な動作,特に指示に対するドライバの反応を考慮に入れながら,交通渋滞を軽減し,ユーザエクスペリエンスを向上させる方法をドライバーに推奨している。
このようなポリシーを実現するために,渋滞緩和と運転者のアドバイスに対する態度を明確に対処する改良された報酬関数を導入する。
残余ポリシーは,変分オートエンコーダを用いて教師なしの方法で学習した推論されたドライバ特性を条件にすることでパーソナライズできることを示す。
本研究の方針は,本モデルによるシミュレーションで訓練され,シミュレーションやユーザスタディ (N=16) を通じて人間の運転者の感情を捉えている。
シミュレーションテストとユーザスタディでは, 速度と速度の偏差の組合せによって, 最大20%, 40%の改善が得られた。
我々のユーザー調査は、私たちのポリシーが人間と互換性があり、ドライバーにパーソナライズされていることを示している。
関連論文リスト
- Lessons in Cooperation: A Qualitative Analysis of Driver Sentiments towards Real-Time Advisory Systems from a Driving Simulator User Study [12.010221998198423]
我々は,運転シミュレーター(N=16)を用いて,協調RTAシステムに対する運転者の反応を捉える。
我々は,運転者のアドバイザリシステムに対する感情を質的に分析し,インタラクションのさまざまな側面に対する運転者の嗜好について議論する。
我々は、アドバイスがどのようにコミュニケーションされるべきか、アドバイスがドライバーの信頼に与える影響、そしてドライバーがシステムにどのように適応するかについてコメントする。
論文 参考訳(メタデータ) (2024-06-29T23:21:42Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - PeRP: Personalized Residual Policies For Congestion Mitigation Through
Co-operative Advisory Systems [12.010221998198423]
Piecewise Constant (PC) Policiesは、交通渋滞を軽減するために、人間の運転の類似性を構造的にモデル化することで問題に対処する。
我々はPersonalized Residual Policy, PeRPを用いたPCポリシに基づく協調アドバイザリシステムの開発を行った。
提案手法は,運転者の行動に適応しながら,渋滞を軽減し,ベースラインよりも平均速度が4~22%向上したことを示す。
論文 参考訳(メタデータ) (2023-08-01T22:25:40Z) - Robust Driving Policy Learning with Guided Meta Reinforcement Learning [49.860391298275616]
本稿では,ソーシャルカーの多種多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。
ソーシャルカーのインタラクションに基づく報酬関数をランダム化することにより、多様な目的を生み出し、メタ政治を効率的に訓練することができる。
本研究では,社会自動車が学習メタ政治によって制御される環境を利用して,エゴ自動車の運転方針の堅牢性を高めるためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-19T17:42:36Z) - Studying the Impact of Semi-Cooperative Drivers on Overall Highway Flow [76.38515853201116]
半協調行動は、人間ドライバーの本質的な性質であり、自律運転には考慮すべきである。
新たな自律型プランナーは、社会的に準拠した軌道を生成するために、人間のドライバーの社会的価値指向(SVO)を考慮することができる。
エージェントが反復的最適応答のゲーム理論バージョンをデプロイする暗黙的な半協調運転について検討する。
論文 参考訳(メタデータ) (2023-04-23T16:01:36Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Decision Making for Autonomous Driving in Interactive Merge Scenarios
via Learning-based Prediction [39.48631437946568]
本稿では,他のドライバの動作から不確実性が生ずる移動トラフィックにマージする複雑なタスクに焦点を当てる。
我々はこの問題を部分的に観測可能なマルコフ決定プロセス(POMDP)とみなし、モンテカルロ木探索でオンラインに解決する。
POMDPの解決策は、接近する車に道を譲る、前方の車から安全な距離を維持する、あるいは交通に合流するといった、高いレベルの運転操作を行う政策である。
論文 参考訳(メタデータ) (2023-03-29T16:12:45Z) - Exploring the trade off between human driving imitation and safety for
traffic simulation [0.34410212782758043]
運転方針の学習において,人間の運転の模倣と安全維持との間にはトレードオフが存在することを示す。
両目的を協調的に改善する多目的学習アルゴリズム(MOPPO)を提案する。
論文 参考訳(メタデータ) (2022-08-09T14:30:19Z) - COOPERNAUT: End-to-End Driving with Cooperative Perception for Networked
Vehicles [54.61668577827041]
本稿では,車間認識を用いたエンドツーエンド学習モデルであるCOOPERNAUTを紹介する。
われわれのAutoCastSim実験は、我々の協調知覚駆動モデルが平均成功率を40%向上させることを示唆している。
論文 参考訳(メタデータ) (2022-05-04T17:55:12Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - Building Safer Autonomous Agents by Leveraging Risky Driving Behavior
Knowledge [1.52292571922932]
本研究は,モデルフリーな学習エージェントを作成するために,重交通や予期せぬランダムな行動を伴うリスクやすいシナリオの作成に重点を置いている。
ハイウェイ-envシミュレーションパッケージに新しいカスタムマルコフ決定プロセス(MDP)環境イテレーションを作成することにより、複数の自動運転シナリオを生成します。
リスクの高い運転シナリオを補足したモデル自由学習エージェントを訓練し,その性能をベースラインエージェントと比較する。
論文 参考訳(メタデータ) (2021-03-16T23:39:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。