論文の概要: FormulaZero: Distributionally Robust Online Adaptation via Offline
Population Synthesis
- arxiv url: http://arxiv.org/abs/2003.03900v2
- Date: Sat, 22 Aug 2020 17:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:24:29.478168
- Title: FormulaZero: Distributionally Robust Online Adaptation via Offline
Population Synthesis
- Title(参考訳): FormulaZero:オフライン人口合成による分散ロバストオンライン適応
- Authors: Aman Sinha, Matthew O'Kelly, Hongrui Zheng, Rahul Mangharam, John
Duchi, Russ Tedrake
- Abstract要約: 自律レースは安全だが 保守的な政策を罰する領域です
現在のアプローチでは、他のエージェントに関する仮定を単純化するか、オンライン適応のための堅牢なメカニズムが欠如している。
レプリカ交換型マルコフ連鎖モンテカルロに基づく新しい自己再生法を開発した。
- 参考スコア(独自算出の注目度): 34.07399367947566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Balancing performance and safety is crucial to deploying autonomous vehicles
in multi-agent environments. In particular, autonomous racing is a domain that
penalizes safe but conservative policies, highlighting the need for robust,
adaptive strategies. Current approaches either make simplifying assumptions
about other agents or lack robust mechanisms for online adaptation. This work
makes algorithmic contributions to both challenges. First, to generate a
realistic, diverse set of opponents, we develop a novel method for self-play
based on replica-exchange Markov chain Monte Carlo. Second, we propose a
distributionally robust bandit optimization procedure that adaptively adjusts
risk aversion relative to uncertainty in beliefs about opponents' behaviors. We
rigorously quantify the tradeoffs in performance and robustness when
approximating these computations in real-time motion-planning, and we
demonstrate our methods experimentally on autonomous vehicles that achieve
scaled speeds comparable to Formula One racecars.
- Abstract(参考訳): 性能と安全性のバランスは、マルチエージェント環境での自動運転車の展開に不可欠である。
特に、自律レースは安全だが保守的なポリシーを罰する領域であり、堅牢で適応的な戦略の必要性を強調している。
現在のアプローチでは、他のエージェントに関する仮定を単純化するか、オンライン適応のための堅牢なメカニズムが欠如している。
この研究は両方の課題にアルゴリズム的な貢献をする。
まず, 現実的かつ多様な対戦相手群を生成するために, 複製交換マルコフ連鎖モンテカルロに基づく新しい自己再生法を開発した。
第2に,不確実性に対するリスク回避を適応的に調整する分散ロバストな帯域最適化手法を提案する。
我々は,リアルタイムモーションプランニングにおいて,これらの計算を近似する際の性能とロバスト性のトレードオフを厳密に定量化し,フォーミュラ1レースカーに匹敵するスケール速度を実現する自律走行車に関する実験手法を実証する。
関連論文リスト
- A Minimaximalist Approach to Reinforcement Learning from Human Feedback [53.05529717075474]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Controllable Safety-Critical Closed-loop Traffic Simulation via Guided
Diffusion [100.4988219600854]
誘導拡散モデルに根ざした新しいクローズドループシミュレーションフレームワークを提案する。
提案手法は, 現実の条件を密にエミュレートする現実的なロングテールシナリオの生成と, 制御性の向上という, 二つの異なる利点をもたらす。
我々はNuScenesデータセットを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Parameterized Decision-making with Multi-modal Perception for Autonomous
Driving [12.21578713219778]
AUTOと呼ばれる深層強化学習に基づくマルチモーダル認識を用いたパラメータ化意思決定フレームワークを提案する。
ハイブリッド報酬関数は、安全、交通効率、乗客の快適性、および最適な行動を生成するためのフレームワークを導く影響を考慮に入れている。
論文 参考訳(メタデータ) (2023-12-19T08:27:02Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - Decision-Making under On-Ramp merge Scenarios by Distributional Soft
Actor-Critic Algorithm [10.258474373022075]
SDSAC(Shield Distributional Soft Actor-critic)と呼ばれるオフライントレーニングとオンライン修正の枠組みに基づくRLベースのエンドツーエンド意思決定方法を提案する。
その結果,SDSACはベースラインアルゴリズムよりも安全性が高く,運転効率も高いことがわかった。
論文 参考訳(メタデータ) (2021-03-08T03:57:32Z) - Deep Structured Reactive Planning [94.92994828905984]
自動運転のための新しいデータ駆動型リアクティブ計画目標を提案する。
本モデルは,非常に複雑な操作を成功させる上で,非反応性変種よりも優れることを示す。
論文 参考訳(メタデータ) (2021-01-18T01:43:36Z) - Learning from Simulation, Racing in Reality [126.56346065780895]
ミニチュアレースカープラットフォーム上で自律的なレースを行うための強化学習ベースのソリューションを提案する。
シミュレーションで純粋に訓練されたポリシーは、実際のロボットのセットアップにうまく移行できることを示す。
論文 参考訳(メタデータ) (2020-11-26T14:58:49Z) - Combining Reinforcement Learning with Model Predictive Control for
On-Ramp Merging [10.480121529429631]
自律運転における運動計画問題の解法として,モデル予測制御(MPC)と強化学習(RL)の2つの幅広い手法が提案されている。
まず、シミュレーションにより最先端のMPCとRLベースの技術の長所と短所を確立する。
その後、モデルフリーなRLエージェントとMPCソリューションをブレンドして、乗客の快適性、効率性、衝突速度、堅牢性といったすべての指標間のトレードオフを改善できることを示すアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-17T07:42:11Z) - Towards a Systematic Computational Framework for Modeling Multi-Agent
Decision-Making at Micro Level for Smart Vehicles in a Smart World [8.899670429041453]
スマートカーのマイクロレベルにおける意思決定と戦略的相互作用をモデル化するためのマルチエージェントベースの計算フレームワークを提案する。
本研究の目的は,自律走行車のためのマイクロパス計画など,様々な現実的なアプリケーションに対して,概念的に健全かつ実用的なフレームワークを提供することである。
論文 参考訳(メタデータ) (2020-09-25T13:05:28Z) - Can Autonomous Vehicles Identify, Recover From, and Adapt to
Distribution Shifts? [104.04999499189402]
トレーニング外の配布(OOD)シナリオは、デプロイ時にエージェントを学ぶ上で一般的な課題である。
インプロバスト模倣計画(RIP)と呼ばれる不確実性を考慮した計画手法を提案する。
提案手法は,OODシーンにおける過信および破滅的な外挿を低減し,分布変化を検知し,回復することができる。
分散シフトを伴うタスク群に対する駆動エージェントのロバスト性を評価するために,自動走行車ノベルシーンベンチマークであるtexttCARNOVEL を導入する。
論文 参考訳(メタデータ) (2020-06-26T11:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。