論文の概要: Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven
- arxiv url: http://arxiv.org/abs/2006.08938v1
- Date: Tue, 16 Jun 2020 05:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 21:40:30.221675
- Title: Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven
- Title(参考訳): 直接ヒューリスティック動的プログラミングによるオンライン強化学習制御:時間駆動からイベント駆動へ
- Authors: Qingtao Zhao, Jennie Si, Jian Sun
- Abstract要約: 時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
- 参考スコア(独自算出の注目度): 80.94390916562179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper time-driven learning refers to the machine learning method that
updates parameters in a prediction model continuously as new data arrives.
Among existing approximate dynamic programming (ADP) and reinforcement learning
(RL) algorithms, the direct heuristic dynamic programming (dHDP) has been shown
an effective tool as demonstrated in solving several complex learning control
problems. It continuously updates the control policy and the critic as system
states continuously evolve. It is therefore desirable to prevent the
time-driven dHDP from updating due to insignificant system event such as noise.
Toward this goal, we propose a new event-driven dHDP. By constructing a
Lyapunov function candidate, we prove the uniformly ultimately boundedness
(UUB) of the system states and the weights in the critic and the control policy
networks. Consequently we show the approximate control and cost-to-go function
approaching Bellman optimality within a finite bound. We also illustrate how
the event-driven dHDP algorithm works in comparison to the original time-driven
dHDP.
- Abstract(参考訳): 本稿では、新しいデータが到着すると予測モデル内のパラメータを継続的に更新する機械学習手法について述べる。
既存の近似動的プログラミング (ADP) と強化学習 (RL) アルゴリズムのうち, 直接ヒューリスティック動的プログラミング (dHDP) は, 複雑な学習制御問題の解法として有効であることが示された。
制御ポリシーと批判を継続的に更新し、システム状態は継続的に進化する。
したがって、ノイズ等の無意味なシステムイベントによる時間駆動dhdpの更新を防止することが望ましい。
そこで我々は,新しいイベント駆動型dHDPを提案する。
Lyapunov関数候補を構築することにより、システム状態の統一的な境界性(UUB)と、批判者および制御ポリシーネットワークの重みを証明できる。
その結果,有限境界内のベルマン最適度に接近する近似制御とコスト・ツー・ゴー関数を示す。
また、イベント駆動型dHDPアルゴリズムが、もともとの時間駆動型dHDPと比較してどのように機能するかを示す。
関連論文リスト
- Learning from Demonstration with Implicit Nonlinear Dynamics Models [16.26835655544884]
本研究では、時間的ダイナミクスをモデル化するための可変な動的特性を持つ固定非線形力学系を含むリカレントニューラルネットワーク層を開発する。
LASA Human Handwriting データセットを用いて人間の手書き動作を再現する作業において,ニューラルネットワーク層の有効性を検証する。
論文 参考訳(メタデータ) (2024-09-27T14:12:49Z) - When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - PID Control-Based Self-Healing to Improve the Robustness of Large Language Models [23.418411870842178]
マイナーな摂動は、よく訓練された言語モデルの性能を大幅に低下させる。
我々は、望ましくないモデル行動を修正するために、計算効率の良い自己修復プロセスを構築した。
提案したPID制御による自己修復は、事前訓練された大規模言語モデルの堅牢性を改善するための低コストなフレームワークである。
論文 参考訳(メタデータ) (2024-03-31T23:46:51Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Accelerated Reinforcement Learning for Temporal Logic Control Objectives [10.216293366496688]
本稿では,未知マルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシーの問題に対処する。
本稿では,制御ポリシを関連手法よりもはるかに高速に学習可能な制御対象に対するモデルベース強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T17:09:51Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - DDPNOpt: Differential Dynamic Programming Neural Optimizer [29.82841891919951]
トレーニングのための最も広く使われているアルゴリズムは、差分動的プログラミング(DDP)とリンク可能であることを示す。
本稿では,フィードフォワードと畳み込みネットワークをトレーニングするためのDDPOptの新たなクラスを提案する。
論文 参考訳(メタデータ) (2020-02-20T15:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。