論文の概要: Counterfactual Policy Evaluation for Decision-Making in Autonomous
Driving
- arxiv url: http://arxiv.org/abs/2003.11919v3
- Date: Thu, 12 Nov 2020 14:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 21:49:07.443521
- Title: Counterfactual Policy Evaluation for Decision-Making in Autonomous
Driving
- Title(参考訳): 自律運転における意思決定のファクトファクトポリシー評価
- Authors: Patrick Hart and Alois Knoll
- Abstract要約: 強化や模倣学習のような学習に基づくアプローチは、自動運転のための意思決定において人気を集めている。
本研究では, 対実的世界を活用した対実的政策評価を導入する。
提案手法は高い成功率を維持しながら衝突速度を著しく低下させることを示す。
- 参考スコア(独自算出の注目度): 3.1410342959104725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based approaches, such as reinforcement and imitation learning are
gaining popularity in decision-making for autonomous driving. However, learned
policies often fail to generalize and cannot handle novel situations well.
Asking and answering questions in the form of "Would a policy perform well if
the other agents had behaved differently?" can shed light on whether a policy
has seen similar situations during training and generalizes well. In this work,
a counterfactual policy evaluation is introduced that makes use of
counterfactual worlds - worlds in which the behaviors of others are non-actual.
If a policy can handle all counterfactual worlds well, it either has seen
similar situations during training or it generalizes well and is deemed to be
fit enough to be executed in the actual world. Additionally, by performing the
counterfactual policy evaluation, causal relations and the influence of
changing vehicle's behaviors on the surrounding vehicles becomes evident. To
validate the proposed method, we learn a policy using reinforcement learning
for a lane merging scenario. In the application-phase, the policy is only
executed after the counterfactual policy evaluation has been performed and if
the policy is found to be safe enough. We show that the proposed approach
significantly decreases the collision-rate whilst maintaining a high
success-rate.
- Abstract(参考訳): 強化や模倣学習といった学習ベースのアプローチは、自動運転のための意思決定で人気を集めている。
しかし、学習政策はしばしば一般化に失敗し、新しい状況をうまく扱えない。
政策は、他のエージェントが異なる行動をとった場合、うまく機能するのか?」という形式で質問と回答をすることで、政策がトレーニング中に同様の状況に遭遇したかどうかを明確化し、一般化することができる。
本研究では、相手の行動が非現実的な世界である対実的世界を利用する対実的政策評価を導入する。
政策が全てのカウンターファクトの世界をうまく扱えるなら、訓練中に類似した状況を見たか、一般化し、現実の世界で実行するのに十分適していると考えられる。
また、反実質的な政策評価を行うことで、因果関係や周囲の車両に対する車両行動の変化の影響が明らかになる。
提案手法を検証するために,車線統合シナリオに対する強化学習を用いたポリシーを学習する。
適用段階において、ポリシーは、反実質的なポリシー評価がなされ、ポリシーが十分に安全であると判明した後にのみ実行される。
提案手法は高い成功率を維持しながら衝突速度を著しく低下させることを示す。
関連論文リスト
- Robust Driving Policy Learning with Guided Meta Reinforcement Learning [49.860391298275616]
本稿では,ソーシャルカーの多種多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。
ソーシャルカーのインタラクションに基づく報酬関数をランダム化することにより、多様な目的を生み出し、メタ政治を効率的に訓練することができる。
本研究では,社会自動車が学習メタ政治によって制御される環境を利用して,エゴ自動車の運転方針の堅牢性を高めるためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-19T17:42:36Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Reinforcement Learning based Control of Imitative Policies for
Near-Accident Driving [41.54021613421446]
事故に近いシナリオでは、車両の動作の微妙な変化でさえ、劇的に異なる結果をもたらす可能性がある。
本稿では、ILが個別駆動モードで学んだ低レベルポリシーと、異なる駆動モード間で切り替えるRLで学んだ高レベルポリシーからなる階層的強化と模倣学習(H-ReIL)アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-01T01:41:45Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Reinforcement Learning [36.664136621546575]
強化学習(Reinforcement Learning, RL)は適応制御のための一般的なフレームワークであり、多くの領域で効率的であることが証明されている。
本章では、RLの基本的枠組みを示し、優れた政策を学ぶために開発された2つのアプローチのメインファミリーを思い出す。
論文 参考訳(メタデータ) (2020-05-29T06:53:29Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。