Fugu-MT 論文翻訳(概要): A Hybrid Approach for Reinforcement Learning Using Virtual Policy Gradient for Balancing an Inverted Pendulum

論文の概要: A Hybrid Approach for Reinforcement Learning Using Virtual Policy Gradient for Balancing an Inverted Pendulum

arxiv url: http://arxiv.org/abs/2102.08362v1
Date: Sat, 6 Feb 2021 23:05:02 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-06 06:42:02.606506
Title: A Hybrid Approach for Reinforcement Learning Using Virtual Policy Gradient for Balancing an Inverted Pendulum
Title（参考訳）: 逆振り子バランスのための仮想ポリシー勾配を用いた強化学習のためのハイブリッド手法
Authors: Dylan Bates
Abstract要約: 倒立振子の物理的に正確なシミュレーションのバランスをとるために,単層ニューラルネットワークを訓練する。トレーニングされた重みとバイアスは物理的エージェントに転送され、実際の倒立振子とバランスをとるのに十分な堅牢性を持つ。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Using the policy gradient algorithm, we train a single-hidden-layer neural network to balance a physically accurate simulation of a single inverted pendulum. The trained weights and biases can then be transferred to a physical agent, where they are robust enough to to balance a real inverted pendulum. This hybrid approach of training a simulation allows thousands of trial runs to be completed orders of magnitude faster than would be possible in the real world, resulting in greatly reduced training time and more iterations, producing a more robust model. When compared with existing reinforcement learning methods, the resulting control is smoother, learned faster, and able to withstand forced disturbances.
Abstract（参考訳）: ポリシー勾配アルゴリズムを用いて,単層ニューラルネットワークを訓練し,倒立振子を物理的に正確にシミュレーションする。トレーニングされた重量とバイアスは物理的エージェントに転送され、実際の逆振り子のバランスをとるのに十分な頑丈さを持つ。シミュレーションをトレーニングするこのハイブリッドアプローチは、現実世界でできることよりも数千回の試行実行を1桁早く完了させることを可能にし、トレーニング時間とイテレーション数を大幅に削減し、より堅牢なモデルを生成する。既存の強化学習法と比較すると、結果として得られる制御はよりスムーズで、より速く学習でき、強制的障害に耐えられる。

関連論文リスト

FORT: Forward-Only Regression Training of Normalizing Flows [85.66894616735752]
我々は,古典正規化フローを,精度の高い一段階生成モデルとして再考する。本稿では,従来の最大度学習で用いられる可変式の変更を計算する必要のない,スケーラブルな学習目標を提案する。
論文参考訳（メタデータ） (2025-06-01T20:32:27Z)
Improving generalization of robot locomotion policies via Sharpness-Aware Reinforcement Learning [0.5399800035598186]
微分可能なシミュレータは、正確な勾配によるサンプル効率の改善を提供するが、接触豊富な環境では不安定である。本稿では,勾配に基づく強化学習アルゴリズムにシャープネスを考慮した最適化を取り入れた新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-29T14:25:54Z)
Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文参考訳（メタデータ） (2024-09-25T06:48:25Z)
Robust Deep Reinforcement Learning with Adaptive Adversarial Perturbations in Action Space [3.639580365066386]
本稿では,トレーニング中の対向摂動の影響を調整するための適応的対向係数フレームワークを提案する。提案手法の特長は,実世界のアプリケーションに簡単にデプロイでき,シミュレータに事前にアクセスする必要がなくなることである。 MuJoCoの実験から,本手法はトレーニングの安定性を向上し,異なるテスト環境に移行する際の堅牢なポリシを学習できることが示された。
論文参考訳（メタデータ） (2024-05-20T12:31:11Z)
Learning Quadruped Locomotion Using Differentiable Simulation [31.80380408663424]
微分可能シミュレーションは、高速収束と安定した訓練を約束する。本研究はこれらの課題を克服するための新しい微分可能シミュレーションフレームワークを提案する。我々のフレームワークは並列化なしで数分で四足歩行を学習できる。
論文参考訳（メタデータ） (2024-03-21T22:18:59Z)
Back-stepping Experience Replay with Application to Model-free Reinforcement Learning for a Soft Snake Robot [15.005962159112002]
Back-stepping Experience Replay (BER)は、任意の外部強化学習アルゴリズムと互換性がある。柔らかいヘビロボットの移動とナビゲーションのためのモデルレスRLアプローチにおけるBERの適用について述べる。
論文参考訳（メタデータ） (2024-01-21T02:17:16Z)
A Q-learning approach to the continuous control problem of robot inverted pendulum balancing [0.29008108937701327]
本研究では,ロボット逆振り子バランスの連続制御問題に対する離散的行動空間強化学習法(Q-learning)の適用性を評価する。システム力学の数学的モデルが実装され、実システムから取得したデータに対する曲線フィッティングによって導出される。
論文参考訳（メタデータ） (2023-12-05T10:40:48Z)
Fast Propagation is Better: Accelerating Single-Step Adversarial Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。モデルの内部構造ブロックを利用して効率を向上させることを提案する。従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文参考訳（メタデータ） (2023-10-24T01:36:20Z)
DiAReL: Reinforcement Learning with Disturbance Awareness for Robust Sim2Real Policy Transfer in Robot Control [0.0]
遅延マルコフ決定プロセスは、最近コミットされたアクションの有限時間ウィンドウでエージェントの状態空間を拡大することでマルコフ特性を満たす。本稿では,遅延した環境下での乱れ増進型マルコフ決定プロセスを導入し,政治強化学習アルゴリズムのトレーニングにおける乱れ推定を取り入れた新しい表現法を提案する。
論文参考訳（メタデータ） (2023-06-15T10:11:38Z)
Stabilizing Machine Learning Prediction of Dynamics: Noise and Noise-inspired Regularization [58.720142291102135]
近年、機械学習(ML)モデルはカオス力学系の力学を正確に予測するために訓練可能であることが示されている。緩和技術がなければ、この技術は人工的に迅速にエラーを発生させ、不正確な予測と/または気候不安定をもたらす可能性がある。トレーニング中にモデル入力に付加される多数の独立雑音実効化の効果を決定論的に近似する正規化手法であるLinearized Multi-Noise Training (LMNT)を導入する。
論文参考訳（メタデータ） (2022-11-09T23:40:52Z)
Continual learning autoencoder training for a particle-in-cell simulation via streaming [52.77024349608834]
今後のエクサスケール時代は次世代の物理シミュレーションを高解像度で提供しますこれらのシミュレーションは高解像度であり、ディスク上に大量のシミュレーションデータを格納することはほぼ不可能であるため、機械学習モデルのトレーニングに影響を与える。この研究は、ディスク上のデータなしで、実行中のシミュレーションにニューラルネットワークを同時にトレーニングするアプローチを示す。
論文参考訳（メタデータ） (2022-11-09T09:55:14Z)
Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文参考訳（メタデータ） (2022-04-14T17:46:26Z)
Efficient Robust Training via Backward Smoothing [125.91185167854262]
敵の訓練は敵の例に対抗して最も効果的な戦略である。トレーニングの各ステップにおける反復的な敵攻撃により、高い計算コストに悩まされる。近年の研究では、単一段階攻撃を行うことで、高速な対人訓練が可能であることが示されている。
論文参考訳（メタデータ） (2020-10-03T04:37:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。