論文の概要: Lane-Merging Using Policy-based Reinforcement Learning and
Post-Optimization
- arxiv url: http://arxiv.org/abs/2003.03168v1
- Date: Fri, 6 Mar 2020 12:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:02:49.075628
- Title: Lane-Merging Using Policy-based Reinforcement Learning and
Post-Optimization
- Title(参考訳): 政策に基づく強化学習とポスト最適化を用いたレーンマージング
- Authors: Patrick Hart, Leonard Rychly, Alois Knol
- Abstract要約: 政策に基づく強化学習と局所最適化を組み合わせることで,2つの方法論のベストプラクティスを育成,合成する。
車両数の異なる車線変更シナリオを用いて提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many current behavior generation methods struggle to handle real-world
traffic situations as they do not scale well with complexity. However,
behaviors can be learned off-line using data-driven approaches. Especially,
reinforcement learning is promising as it implicitly learns how to behave
utilizing collected experiences. In this work, we combine policy-based
reinforcement learning with local optimization to foster and synthesize the
best of the two methodologies. The policy-based reinforcement learning
algorithm provides an initial solution and guiding reference for the
post-optimization. Therefore, the optimizer only has to compute a single
homotopy class, e.g.\ drive behind or in front of the other vehicle. By storing
the state-history during reinforcement learning, it can be used for constraint
checking and the optimizer can account for interactions. The post-optimization
additionally acts as a safety-layer and the novel method, thus, can be applied
in safety-critical applications. We evaluate the proposed method using
lane-change scenarios with a varying number of vehicles.
- Abstract(参考訳): 多くの現在の行動生成手法は、複雑さにうまく対応できないため、現実の交通状況を扱うのに苦労している。
しかし、振る舞いはデータ駆動アプローチを使ってオフラインで学べる。
特に強化学習は,収集した経験の活用法を暗黙的に学習する上で有望である。
本研究では,ポリシーに基づく強化学習と局所最適化を組み合わせることで,この2つの手法のベストを育み,統合する。
ポリシーに基づく強化学習アルゴリズムは、最適化後の初期解と参照を導く。
したがって、オプティマイザは単一のホモトピークラス(例えば、他の車両の後方または前方)を計算しなければならない。
強化学習中に状態履歴を格納することで、制約チェックに使用でき、オプティマイザがインタラクションを考慮できる。
後最適化は安全層として機能し、新しい手法は安全クリティカルな応用に適用できる。
車両数の異なる車線変更シナリオを用いて提案手法の評価を行った。
関連論文リスト
- Rethinking Optimal Transport in Offline Reinforcement Learning [64.56896902186126]
オフラインの強化学習では、データはさまざまな専門家によって提供され、一部は準最適である。
効率的なポリシを抽出するには、データセットから最高の振る舞いを強調する必要がある。
本稿では,各状態に対する最善の専門家行動の公平な分布に状態をマッピングするポリシーを見つけることを目的としたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T22:36:43Z) - Self-Improvement for Neural Combinatorial Optimization: Sample without Replacement, but Improvement [1.1510009152620668]
建設的ニューラル最適化の現在の手法は、通常、専門家ソリューションからの行動クローニングや強化学習からのポリシー勾配手法を用いてポリシーを訓練する。
各エポックにおける現在のモデルを用いて、ランダムなインスタンスに対して複数の解をサンプリングし、その後、教師付き模倣学習のための専門家の軌跡として最適な解を選択することにより、この2つを橋渡しする。
我々は,旅行セールスマン問題とキャパシタントカールーティング問題に対する我々のアプローチを評価し,本手法で訓練したモデルは,専門家データで訓練したモデルと同等の性能と一般化を実現する。
論文 参考訳(メタデータ) (2024-03-22T13:09:10Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - Adaptive Decision Making at the Intersection for Autonomous Vehicles
Based on Skill Discovery [13.134487965031667]
都市環境では、複雑で不確実な交差点のシナリオは自動運転にとって困難である。
安全性を確保するためには、他の車両とのインタラクションを処理できる適応的な意思決定システムを開発することが不可欠である。
知識を自律的に蓄積し再利用できる階層的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-24T11:56:45Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - Learning Interaction-aware Guidance Policies for Motion Planning in
Dense Traffic Scenarios [8.484564880157148]
本稿では,高密度交通シナリオにおける対話型モーションプランニングのための新しい枠組みを提案する。
我々は,他車両の協調性に関する国際的ガイダンスを提供するインタラクション対応政策であるDeep Reinforcement Learning (RL) を通じて学習することを提案する。
学習されたポリシーは、ローカル最適化ベースのプランナーを推論し、対話的な振る舞いで誘導し、他の車両が収まらない場合に安全を維持しながら、密集したトラフィックに積極的にマージする。
論文 参考訳(メタデータ) (2021-07-09T16:43:12Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。