論文の概要: Leveraging Reward Gradients For Reinforcement Learning in Differentiable
Physics Simulations
- arxiv url: http://arxiv.org/abs/2203.02857v1
- Date: Sun, 6 Mar 2022 02:28:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 18:31:27.560845
- Title: Leveraging Reward Gradients For Reinforcement Learning in Differentiable
Physics Simulations
- Title(参考訳): 微分物理学シミュレーションにおける強化学習のための逆勾配の活用
- Authors: Sean Gillen and Katie Byl
- Abstract要約: 制御のための強化学習の文脈において、剛体物理学シミュレータは理論上、報酬関数の分析勾配に直接アルゴリズムを適用することができる。
本稿では,これらの勾配を利用して,難解な非線形制御問題の集合上での深部強化学習の精度を向上する新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.4219428942199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, fully differentiable rigid body physics simulators have been
developed, which can be used to simulate a wide range of robotic systems. In
the context of reinforcement learning for control, these simulators
theoretically allow algorithms to be applied directly to analytic gradients of
the reward function. However, to date, these gradients have proved extremely
challenging to use, and are outclassed by algorithms using no gradient
information at all. In this work we present a novel algorithm, cross entropy
analytic policy gradients, that is able to leverage these gradients to
outperform state of art deep reinforcement learning on a set of challenging
nonlinear control problems.
- Abstract(参考訳): 近年では、幅広いロボットシステムをシミュレートするために使用できる、完全に微分可能な剛体物理学シミュレータが開発されている。
制御のための強化学習の文脈において、これらのシミュレータは理論上、報酬関数の分析勾配に直接アルゴリズムを適用することができる。
しかし、これまでのところ、これらの勾配は使用が極めて困難であることが判明しており、勾配情報を使用しないアルゴリズムでは時代遅れである。
本研究では,これらの勾配を,非線形制御問題の集合に対して,芸術的深層強化学習の状態を上回ることを可能にする,新しいアルゴリズムであるクロスエントロピー解析ポリシー勾配を提案する。
関連論文リスト
- Gradient-free online learning of subgrid-scale dynamics with neural emulators [5.283819482083864]
機械学習に基づくサブグリッドパラメトリゼーションをオンラインでトレーニングするための汎用アルゴリズムを提案する。
我々は、元の解法の勾配を計算することなく、オンライン戦略の利点のほとんどを回復するパラメトリゼーションを訓練することができる。
論文 参考訳(メタデータ) (2023-10-30T09:46:35Z) - Improving Gradient Computation for Differentiable Physics Simulation
with Contacts [10.450509067356148]
接触による剛体シミュレーションについて検討した。
連続衝突検出による勾配計算の改善とTOI(Time-of-Ipact)の利用を提案する。
そこで,TOI-Veでは,解析解と一致する最適制御系列を学習できることを示す。
論文 参考訳(メタデータ) (2023-04-28T21:10:16Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Gradients are Not All You Need [28.29420710601308]
さまざまな異なる状況に現れる共通のカオスベースの障害モードについて議論する。
我々は、この失敗を研究中のシステムのヤコビアンスペクトルに遡り、この失敗が微分に基づく最適化アルゴリズムを損なうことを実践者がいつ期待するかの基準を提供する。
論文 参考訳(メタデータ) (2021-11-10T16:51:04Z) - Physical Gradients for Deep Learning [101.36788327318669]
最先端のトレーニング技術は、物理的なプロセスに関わる多くの問題に適していないことが分かりました。
本稿では,高次最適化手法と機械学習手法を組み合わせた新しいハイブリッドトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-30T12:14:31Z) - Efficient Differentiable Simulation of Articulated Bodies [89.64118042429287]
本稿では, 音素の効率的な微分可能シミュレーション法を提案する。
これにより、ボディダイナミクスを深層学習フレームワークに統合することが可能になる。
提案手法を用いて, 調音システムによる強化学習を高速化できることを示す。
論文 参考訳(メタデータ) (2021-09-16T04:48:13Z) - SUPER-ADAM: Faster and Universal Framework of Adaptive Gradients [99.13839450032408]
一般的な問題を解決するための適応アルゴリズムのための普遍的な枠組みを設計することが望まれる。
特に,本フレームワークは,非収束的設定支援の下で適応的手法を提供する。
論文 参考訳(メタデータ) (2021-06-15T15:16:28Z) - PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable
Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。
各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。
本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文 参考訳(メタデータ) (2021-04-07T17:59:23Z) - Learning Unstable Dynamical Systems with Time-Weighted Logarithmic Loss [20.167719985846002]
勾配降下アルゴリズムの力学を考察し、不安定なシステムの学習が困難になる原因をピンポイントする。
この不均衡を解消し,不安定なシステムを学習する上での有効性を示すために,時間重対数損失関数を導入する。
論文 参考訳(メタデータ) (2020-07-10T06:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。