論文の概要: An online evolving framework for advancing reinforcement-learning based
automated vehicle control
- arxiv url: http://arxiv.org/abs/2006.08092v2
- Date: Tue, 16 Jun 2020 12:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 05:02:56.662767
- Title: An online evolving framework for advancing reinforcement-learning based
automated vehicle control
- Title(参考訳): 強化学習に基づく自動車両制御のオンライン展開フレームワーク
- Authors: Teawon Han, Subramanya Nageshrao, Dimitar P. Filev, Umit Ozguner
- Abstract要約: コントローラの不完全な意思決定を事前に検出し、修正するためのオンライン進化フレームワークが提案されている。
フレームワークは進化するFinite State Machine(e-FSM)、アクションリバイザ、コントローラモジュールの3つのモジュールで構成されている。
実験の結果,DDPGコントローラが選択した不適切な動作が,提案フレームワークによって検出され,適切に修正されていることがわかった。
- 参考スコア(独自算出の注目度): 6.063844163717142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, an online evolving framework is proposed to detect and revise
a controller's imperfect decision-making in advance. The framework consists of
three modules: the evolving Finite State Machine (e-FSM), action-reviser, and
controller modules. The e-FSM module evolves a stochastic model (e.g.,
Discrete-Time Markov Chain) from scratch by determining new states and
identifying transition probabilities repeatedly. With the latest stochastic
model and given criteria, the action-reviser module checks validity of the
controller's chosen action by predicting future states. Then, if the chosen
action is not appropriate, another action is inspected and selected. In order
to show the advantage of the proposed framework, the Deep Deterministic Policy
Gradient (DDPG) w/ and w/o the online evolving framework are applied to control
an ego-vehicle in the car-following scenario where control criteria are set by
speed and safety. Experimental results show that inappropriate actions chosen
by the DDPG controller are detected and revised appropriately through our
proposed framework, resulting in no control failures after a few iterations.
- Abstract(参考訳): 本稿では,コントローラの不完全な意思決定を事前に検出し,修正するためのオンライン進化フレームワークを提案する。
フレームワークは進化する有限状態マシン(e-FSM)、アクションリバイザ、コントローラモジュールの3つのモジュールで構成されている。
e-FSMモジュールは、新しい状態を決定し、繰り返し遷移確率を特定することによって、確率モデル(例えば離散時間マルコフ連鎖)をゼロから進化させる。
最新の確率モデルと与えられた基準により、アクションリバイザモジュールは将来の状態を予測してコントローラの選択したアクションの有効性をチェックする。
そして、選択されたアクションが適切でない場合は、別のアクションを検査して選択する。
提案手法の利点を示すため, 車両追従シナリオにおいて, 速度と安全性によって制御基準が設定された場合のエゴ車両の制御に, DDPG (Deep Deterministic Policy Gradient) w/とw/oを適用した。
実験の結果,DDPGコントローラが選択した不適切な動作は,提案したフレームワークを通じて適切に検出・修正され,数回の反復で制御障害は発生しないことがわかった。
関連論文リスト
- Controllability-Constrained Deep Network Models for Enhanced Control of
Dynamical Systems [4.948174943314265]
力学の知識を持たない力学系の制御は重要かつ困難な課題である。
ディープニューラルネットワーク(DNN)のような現代の機械学習アプローチは、制御入力と対応する状態観測出力から動的モデルの推定を可能にする。
制御性のあるデータから推定されるモデルを明確に拡張する制御理論法を提案する。
論文 参考訳(メタデータ) (2023-11-11T00:04:26Z) - DARTH: Holistic Test-time Adaptation for Multiple Object Tracking [87.72019733473562]
複数物体追跡(MOT)は、自律運転における知覚システムの基本的構成要素である。
運転システムの安全性の追求にもかかわらず、テスト時間条件における領域シフトに対するMOT適応問題に対する解決策は提案されていない。
我々はMOTの総合的なテスト時間適応フレームワークであるDARTHを紹介する。
論文 参考訳(メタデータ) (2023-10-03T10:10:42Z) - Incorporating Recurrent Reinforcement Learning into Model Predictive
Control for Adaptive Control in Autonomous Driving [11.67417895998434]
モデル予測制御(MPC)は、強力な制御技術として自律運転タスクに大きな注目を集めている。
本稿では,この問題を部分的に観測されたマルコフ決定過程(POMDP)として再検討する。
次に、最適かつ適応的な制御のために、リカレント強化学習(RRL)を通して、動的モデルのパラメータを継続的に適応させるリカレントポリシーを学習する。
論文 参考訳(メタデータ) (2023-01-30T22:11:07Z) - Adaptive Model Predictive Control by Learning Classifiers [26.052368583196426]
制御パラメータとモデルパラメータを自動的に推定する適応型MPC変種を提案する。
我々は,BOを密度比推定として定式化できることを示す最近の結果を活用する。
その後、これはモデル予測経路積分制御フレームワークに統合され、様々な困難なロボティクスタスクのための堅牢なコントローラを生成する。
論文 参考訳(メタデータ) (2022-03-13T23:22:12Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Safety Verification of Model Based Reinforcement Learning Controllers [7.407039316561176]
本稿では,モデルベースRLコントローラのリーチブル・セット解析を用いた新しい安全性検証フレームワークを提案する。
提案したフレームワークは、ニューラルネットワークを用いて表現されるモデルとコントローラを効率的に扱うことができる。
論文 参考訳(メタデータ) (2020-10-21T03:35:28Z) - Comparison of Model Predictive and Reinforcement Learning Methods for
Fault Tolerant Control [2.524528674141466]
階層的強化学習に基づく離散時間系に対する2つの適応型耐故障制御方式を提案する。
実験により、強化学習に基づく制御器は、故障下のモデル予測制御器、部分的に観測可能なシステムモデル、様々なセンサノイズレベルよりも堅牢に動作することが示されている。
論文 参考訳(メタデータ) (2020-08-10T20:22:15Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。