論文の概要: A Hybrid Approach for Reinforcement Learning Using Virtual Policy
Gradient for Balancing an Inverted Pendulum
- arxiv url: http://arxiv.org/abs/2102.08362v1
- Date: Sat, 6 Feb 2021 23:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 06:42:02.606506
- Title: A Hybrid Approach for Reinforcement Learning Using Virtual Policy
Gradient for Balancing an Inverted Pendulum
- Title(参考訳): 逆振り子バランスのための仮想ポリシー勾配を用いた強化学習のためのハイブリッド手法
- Authors: Dylan Bates
- Abstract要約: 倒立振子の物理的に正確なシミュレーションのバランスをとるために,単層ニューラルネットワークを訓練する。
トレーニングされた重みとバイアスは物理的エージェントに転送され、実際の倒立振子とバランスをとるのに十分な堅牢性を持つ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Using the policy gradient algorithm, we train a single-hidden-layer neural
network to balance a physically accurate simulation of a single inverted
pendulum. The trained weights and biases can then be transferred to a physical
agent, where they are robust enough to to balance a real inverted pendulum.
This hybrid approach of training a simulation allows thousands of trial runs to
be completed orders of magnitude faster than would be possible in the real
world, resulting in greatly reduced training time and more iterations,
producing a more robust model. When compared with existing reinforcement
learning methods, the resulting control is smoother, learned faster, and able
to withstand forced disturbances.
- Abstract(参考訳): ポリシー勾配アルゴリズムを用いて,単層ニューラルネットワークを訓練し,倒立振子を物理的に正確にシミュレーションする。
トレーニングされた重量とバイアスは物理的エージェントに転送され、実際の逆振り子のバランスをとるのに十分な頑丈さを持つ。
シミュレーションをトレーニングするこのハイブリッドアプローチは、現実世界でできることよりも数千回の試行実行を1桁早く完了させることを可能にし、トレーニング時間とイテレーション数を大幅に削減し、より堅牢なモデルを生成する。
既存の強化学習法と比較すると、結果として得られる制御はよりスムーズで、より速く学習でき、強制的障害に耐えられる。
関連論文リスト
- Back-stepping Experience Replay with Application to Model-free
Reinforcement Learning for a Soft Snake Robot [16.392935637858546]
Back-stepping Experience Replay (BER)は、任意の外部強化学習アルゴリズムと互換性がある。
柔らかいヘビロボットの移動とナビゲーションのためのモデルレスRLアプローチにおけるBERの適用について述べる。
論文 参考訳(メタデータ) (2024-01-21T02:17:16Z) - A Q-learning approach to the continuous control problem of robot
inverted pendulum balancing [0.29008108937701327]
本研究では,ロボット逆振り子バランスの連続制御問題に対する離散的行動空間強化学習法(Q-learning)の適用性を評価する。
システム力学の数学的モデルが実装され、実システムから取得したデータに対する曲線フィッティングによって導出される。
論文 参考訳(メタデータ) (2023-12-05T10:40:48Z) - Gradient-free online learning of subgrid-scale dynamics with neural
emulators [5.77219319717314]
機械学習に基づくサブグリッドパラメトリゼーションをオンラインでトレーニングするための汎用アルゴリズムを提案する。
我々は、元の解法の勾配を計算することなく、オンライン戦略の利点のほとんどを回復するパラメトリゼーションを訓練することができる。
論文 参考訳(メタデータ) (2023-10-30T09:46:35Z) - Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - DiAReL: Reinforcement Learning with Disturbance Awareness for Robust
Sim2Real Policy Transfer in Robot Control [0.0]
遅延マルコフ決定プロセスは、最近コミットされたアクションの有限時間ウィンドウでエージェントの状態空間を拡大することでマルコフ特性を満たす。
本稿では,遅延した環境下での乱れ増進型マルコフ決定プロセスを導入し,政治強化学習アルゴリズムのトレーニングにおける乱れ推定を取り入れた新しい表現法を提案する。
論文 参考訳(メタデータ) (2023-06-15T10:11:38Z) - Stabilizing Machine Learning Prediction of Dynamics: Noise and
Noise-inspired Regularization [58.720142291102135]
近年、機械学習(ML)モデルはカオス力学系の力学を正確に予測するために訓練可能であることが示されている。
緩和技術がなければ、この技術は人工的に迅速にエラーを発生させ、不正確な予測と/または気候不安定をもたらす可能性がある。
トレーニング中にモデル入力に付加される多数の独立雑音実効化の効果を決定論的に近似する正規化手法であるLinearized Multi-Noise Training (LMNT)を導入する。
論文 参考訳(メタデータ) (2022-11-09T23:40:52Z) - Continual learning autoencoder training for a particle-in-cell
simulation via streaming [52.77024349608834]
今後のエクサスケール時代は 次世代の物理シミュレーションを 高解像度で提供します
これらのシミュレーションは高解像度であり、ディスク上に大量のシミュレーションデータを格納することはほぼ不可能であるため、機械学習モデルのトレーニングに影響を与える。
この研究は、ディスク上のデータなしで、実行中のシミュレーションにニューラルネットワークを同時にトレーニングするアプローチを示す。
論文 参考訳(メタデータ) (2022-11-09T09:55:14Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Efficient Robust Training via Backward Smoothing [125.91185167854262]
敵の訓練は敵の例に対抗して最も効果的な戦略である。
トレーニングの各ステップにおける反復的な敵攻撃により、高い計算コストに悩まされる。
近年の研究では、単一段階攻撃を行うことで、高速な対人訓練が可能であることが示されている。
論文 参考訳(メタデータ) (2020-10-03T04:37:33Z) - Learning Whole-body Motor Skills for Humanoids [25.443880385966114]
本稿では,多種多様なプッシュリカバリとバランス行動のための運動スキルを習得するDeep Reinforcement Learningの階層的枠組みを提案する。
この方針は、ロボットモデルの現実的な設定と、学習したスキルを実際のロボットに簡単に伝達できる低レベルのインピーダンス制御を備えた物理シミュレーターで訓練されている。
論文 参考訳(メタデータ) (2020-02-07T19:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。