論文の概要: Stabilizing Reinforcement Learning in Differentiable Multiphysics Simulation
- arxiv url: http://arxiv.org/abs/2412.12089v1
- Date: Mon, 16 Dec 2024 18:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:31.832469
- Title: Stabilizing Reinforcement Learning in Differentiable Multiphysics Simulation
- Title(参考訳): 微分可能多物理シミュレーションにおける強化学習の安定化
- Authors: Eliot Xing, Vernon Luk, Jean Oh,
- Abstract要約: 本稿では,剛体や変形物を含むタスクにおけるRLのスケーリングを実現するための,新しいRLアルゴリズムとシミュレーションプラットフォームを提案する。
我々は,最大エントロピー1次モデルに基づくRLアルゴリズムであるSoft Analytic Policy (SAPO)を導入する。
また,剛体以外の様々な材料を模擬する並列微分可能多物理シミュレーションプラットフォームであるRewarpedを開発した。
- 参考スコア(独自算出の注目度): 11.360832156847103
- License:
- Abstract: Recent advances in GPU-based parallel simulation have enabled practitioners to collect large amounts of data and train complex control policies using deep reinforcement learning (RL), on commodity GPUs. However, such successes for RL in robotics have been limited to tasks sufficiently simulated by fast rigid-body dynamics. Simulation techniques for soft bodies are comparatively several orders of magnitude slower, thereby limiting the use of RL due to sample complexity requirements. To address this challenge, this paper presents both a novel RL algorithm and a simulation platform to enable scaling RL on tasks involving rigid bodies and deformables. We introduce Soft Analytic Policy Optimization (SAPO), a maximum entropy first-order model-based actor-critic RL algorithm, which uses first-order analytic gradients from differentiable simulation to train a stochastic actor to maximize expected return and entropy. Alongside our approach, we develop Rewarped, a parallel differentiable multiphysics simulation platform that supports simulating various materials beyond rigid bodies. We re-implement challenging manipulation and locomotion tasks in Rewarped, and show that SAPO outperforms baselines over a range of tasks that involve interaction between rigid bodies, articulations, and deformables.
- Abstract(参考訳): GPUベースの並列シミュレーションの最近の進歩により、実践者は大量のデータを収集し、コモディティGPU上で深層強化学習(RL)を使用して複雑な制御ポリシーを訓練できるようになった。
しかしながら、ロボット工学におけるRLの成功は、高速剛体力学によって十分にシミュレートされたタスクに限られている。
ソフトボディのシミュレーション技術は、比較的数桁遅いため、サンプルの複雑さの要求によりRLの使用が制限される。
この課題に対処するために, 剛体および変形可能なタスクにおけるRLのスケーリングを実現するための, 新たなRLアルゴリズムとシミュレーションプラットフォームを提案する。
本稿では,最大エントロピーモデルに基づくアクタークリティカルRLアルゴリズムであるSoft Analytic Policy Optimization (SAPO)を導入する。
提案手法と並行して,剛体以外の様々な材料をシミュレーションする並列微分可能多物理シミュレーションプラットフォームであるRewarpedを開発した。
我々は、Rewarpedにおける困難な操作と移動タスクを再実装し、SAPOは、剛体、調音、変形性の間の相互作用を含む様々なタスクにおいて、ベースラインを上回っていることを示す。
関連論文リスト
- Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - QuadSim: A Quadcopter Rotational Dynamics Simulation Framework For
Reinforcement Learning Algorithms [0.0]
本研究は,数式に基づくクアッドコプター回転動力学シミュレーションフレームワークの設計と開発に焦点をあてる。
このフレームワークは、クワッドコプターの線形表現と非線形表現の両方をシミュレートすることを目的としている。
シミュレーション環境はOpenAI Gymツールキットと互換性を持つように拡張された。
論文 参考訳(メタデータ) (2022-02-14T20:34:08Z) - DiffSRL: Learning Dynamic-aware State Representation for Deformable
Object Control with Differentiable Simulator [26.280021036447213]
ダイナミックス関連情報をキャプチャできる潜在空間は、モデルフリー強化学習の加速のような分野に広く応用されている。
微分可能シミュレーションを利用した動的状態表現学習パイプラインDiffSRLを提案する。
本モデルでは,長期的ダイナミクスと報奨予測の両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-24T04:53:58Z) - Deep Bayesian Active Learning for Accelerating Stochastic Simulation [74.58219903138301]
Interactive Neural Process(INP)は、シミュレーションとアクティブな学習アプローチのためのディープラーニングフレームワークである。
能動的学習のために,NPベースモデルの潜時空間で計算された新しい取得関数Latent Information Gain (LIG)を提案する。
その結果,STNPは学習環境のベースラインを上回り,LIGは能動学習の最先端を達成していることがわかった。
論文 参考訳(メタデータ) (2021-06-05T01:31:51Z) - PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable
Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。
各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。
本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文 参考訳(メタデータ) (2021-04-07T17:59:23Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。