論文の概要: FormulaZero: Distributionally Robust Online Adaptation via Offline
Population Synthesis
- arxiv url: http://arxiv.org/abs/2003.03900v2
- Date: Sat, 22 Aug 2020 17:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:24:29.478168
- Title: FormulaZero: Distributionally Robust Online Adaptation via Offline
Population Synthesis
- Title(参考訳): FormulaZero:オフライン人口合成による分散ロバストオンライン適応
- Authors: Aman Sinha, Matthew O'Kelly, Hongrui Zheng, Rahul Mangharam, John
Duchi, Russ Tedrake
- Abstract要約: 自律レースは安全だが 保守的な政策を罰する領域です
現在のアプローチでは、他のエージェントに関する仮定を単純化するか、オンライン適応のための堅牢なメカニズムが欠如している。
レプリカ交換型マルコフ連鎖モンテカルロに基づく新しい自己再生法を開発した。
- 参考スコア(独自算出の注目度): 34.07399367947566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Balancing performance and safety is crucial to deploying autonomous vehicles
in multi-agent environments. In particular, autonomous racing is a domain that
penalizes safe but conservative policies, highlighting the need for robust,
adaptive strategies. Current approaches either make simplifying assumptions
about other agents or lack robust mechanisms for online adaptation. This work
makes algorithmic contributions to both challenges. First, to generate a
realistic, diverse set of opponents, we develop a novel method for self-play
based on replica-exchange Markov chain Monte Carlo. Second, we propose a
distributionally robust bandit optimization procedure that adaptively adjusts
risk aversion relative to uncertainty in beliefs about opponents' behaviors. We
rigorously quantify the tradeoffs in performance and robustness when
approximating these computations in real-time motion-planning, and we
demonstrate our methods experimentally on autonomous vehicles that achieve
scaled speeds comparable to Formula One racecars.
- Abstract(参考訳): 性能と安全性のバランスは、マルチエージェント環境での自動運転車の展開に不可欠である。
特に、自律レースは安全だが保守的なポリシーを罰する領域であり、堅牢で適応的な戦略の必要性を強調している。
現在のアプローチでは、他のエージェントに関する仮定を単純化するか、オンライン適応のための堅牢なメカニズムが欠如している。
この研究は両方の課題にアルゴリズム的な貢献をする。
まず, 現実的かつ多様な対戦相手群を生成するために, 複製交換マルコフ連鎖モンテカルロに基づく新しい自己再生法を開発した。
第2に,不確実性に対するリスク回避を適応的に調整する分散ロバストな帯域最適化手法を提案する。
我々は,リアルタイムモーションプランニングにおいて,これらの計算を近似する際の性能とロバスト性のトレードオフを厳密に定量化し,フォーミュラ1レースカーに匹敵するスケール速度を実現する自律走行車に関する実験手法を実証する。
関連論文リスト
- CRASH: Challenging Reinforcement-Learning Based Adversarial Scenarios For Safety Hardening [16.305837225117607]
本稿では, CRASH - Challenging Reinforcement-learning based Adversarial scenarios for Safety Hardeningを紹介する。
第1のCRASHは、Ego車両との衝突を自動的に誘導するために、AVシミュレータ内のNon Player Character(NPC)エージェントを制御することができる。
我々はまた、敵エージェントに対する改善シナリオをシミュレートすることで、運動プランナーを反復的に洗練する安全硬化という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-26T00:00:27Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Parameterized Decision-making with Multi-modal Perception for Autonomous
Driving [12.21578713219778]
AUTOと呼ばれる深層強化学習に基づくマルチモーダル認識を用いたパラメータ化意思決定フレームワークを提案する。
ハイブリッド報酬関数は、安全、交通効率、乗客の快適性、および最適な行動を生成するためのフレームワークを導く影響を考慮に入れている。
論文 参考訳(メタデータ) (2023-12-19T08:27:02Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - NeurIPS 2022 Competition: Driving SMARTS [60.948652154552136]
ドライビングSMARTSは、動的相互作用コンテキストにおける分散シフトに起因する問題に対処するために設計された定期的な競争である。
提案するコンペティションは,強化学習(RL)やオフライン学習など,方法論的に多様なソリューションをサポートする。
論文 参考訳(メタデータ) (2022-11-14T17:10:53Z) - Decision-Making under On-Ramp merge Scenarios by Distributional Soft
Actor-Critic Algorithm [10.258474373022075]
SDSAC(Shield Distributional Soft Actor-critic)と呼ばれるオフライントレーニングとオンライン修正の枠組みに基づくRLベースのエンドツーエンド意思決定方法を提案する。
その結果,SDSACはベースラインアルゴリズムよりも安全性が高く,運転効率も高いことがわかった。
論文 参考訳(メタデータ) (2021-03-08T03:57:32Z) - Deep Structured Reactive Planning [94.92994828905984]
自動運転のための新しいデータ駆動型リアクティブ計画目標を提案する。
本モデルは,非常に複雑な操作を成功させる上で,非反応性変種よりも優れることを示す。
論文 参考訳(メタデータ) (2021-01-18T01:43:36Z) - Learning from Simulation, Racing in Reality [126.56346065780895]
ミニチュアレースカープラットフォーム上で自律的なレースを行うための強化学習ベースのソリューションを提案する。
シミュレーションで純粋に訓練されたポリシーは、実際のロボットのセットアップにうまく移行できることを示す。
論文 参考訳(メタデータ) (2020-11-26T14:58:49Z) - Towards a Systematic Computational Framework for Modeling Multi-Agent
Decision-Making at Micro Level for Smart Vehicles in a Smart World [8.899670429041453]
スマートカーのマイクロレベルにおける意思決定と戦略的相互作用をモデル化するためのマルチエージェントベースの計算フレームワークを提案する。
本研究の目的は,自律走行車のためのマイクロパス計画など,様々な現実的なアプリケーションに対して,概念的に健全かつ実用的なフレームワークを提供することである。
論文 参考訳(メタデータ) (2020-09-25T13:05:28Z) - Can Autonomous Vehicles Identify, Recover From, and Adapt to
Distribution Shifts? [104.04999499189402]
トレーニング外の配布(OOD)シナリオは、デプロイ時にエージェントを学ぶ上で一般的な課題である。
インプロバスト模倣計画(RIP)と呼ばれる不確実性を考慮した計画手法を提案する。
提案手法は,OODシーンにおける過信および破滅的な外挿を低減し,分布変化を検知し,回復することができる。
分散シフトを伴うタスク群に対する駆動エージェントのロバスト性を評価するために,自動走行車ノベルシーンベンチマークであるtexttCARNOVEL を導入する。
論文 参考訳(メタデータ) (2020-06-26T11:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。