論文の概要: Imitation Learning via Differentiable Physics
- arxiv url: http://arxiv.org/abs/2206.04873v1
- Date: Fri, 10 Jun 2022 04:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 00:54:03.228038
- Title: Imitation Learning via Differentiable Physics
- Title(参考訳): 微分物理学による模倣学習
- Authors: Siwei Chen, Xiao Ma, Zhongwen Xu
- Abstract要約: 逆強化学習(IRL)のような模倣学習(IL)の手法は通常、ダブルループトレーニングプロセスを持つ。
両ループ設計を廃止した新しいIL法,すなわち、微分可能物理学によるImitation Learningを提案する。
ILDは最終性能、収束速度、安定性の大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 26.356669151969953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing imitation learning (IL) methods such as inverse reinforcement
learning (IRL) usually have a double-loop training process, alternating between
learning a reward function and a policy and tend to suffer long training time
and high variance. In this work, we identify the benefits of differentiable
physics simulators and propose a new IL method, i.e., Imitation Learning via
Differentiable Physics (ILD), which gets rid of the double-loop design and
achieves significant improvements in final performance, convergence speed, and
stability. The proposed ILD incorporates the differentiable physics simulator
as a physics prior into its computational graph for policy learning. It unrolls
the dynamics by sampling actions from a parameterized policy, simply minimizing
the distance between the expert trajectory and the agent trajectory, and
back-propagating the gradient into the policy via temporal physics operators.
With the physics prior, ILD policies can not only be transferable to unseen
environment specifications but also yield higher final performance on a variety
of tasks. In addition, ILD naturally forms a single-loop structure, which
significantly improves the stability and training speed. To simplify the
complex optimization landscape induced by temporal physics operations, ILD
dynamically selects the learning objectives for each state during optimization.
In our experiments, we show that ILD outperforms state-of-the-art methods in a
variety of continuous control tasks with Brax, requiring only one expert
demonstration. In addition, ILD can be applied to challenging deformable object
manipulation tasks and can be generalized to unseen configurations.
- Abstract(参考訳): 逆強化学習(IRL)のような既存の模倣学習(IL)手法は通常、報酬関数とポリシーの学習を交互に行い、長い訓練時間と高い分散を経験する傾向がある。
本研究では, 微分可能な物理シミュレータの利点を特定し, 二重ループ設計を廃止し, 最終的な性能, 収束速度, 安定性に大きな改善を実現した, 微分可能な物理(ild)による模倣学習法を提案する。
提案したILDは、ポリシー学習のための計算グラフに、微分可能な物理シミュレータを物理として組み込む。
パラメータ化されたポリシーからアクションをサンプリングし、単に専門家の軌道とエージェントの軌道の間の距離を最小化し、時相物理学の演算子を介してグラデーションをポリシーにバックプロパゲーションすることで、ダイナミクスを解放する。
以前の物理では、irdポリシーは環境仕様に移行可能であるだけでなく、様々なタスクにおいて高い最終性能をもたらす。
さらに、IDDは自然に単一ループ構造を形成し、安定性とトレーニング速度を大幅に向上させる。
時間的物理演算によって引き起こされる複雑な最適化ランドスケープを単純化するため、icdは最適化中の各状態の学習目標を動的に選択する。
実験では, ILDはブラックスを用いた各種連続制御タスクにおいて, 最先端の手法よりも優れており, 1つの専門家によるデモンストレーションしか必要としないことがわかった。
さらに、IDDは変形不能なオブジェクト操作タスクに適用でき、見えない設定に一般化することができる。
関連論文リスト
- Physics Informed Deep Learning for Strain Gradient Continuum Plasticity [0.0]
我々は、物理情報深層学習に基づく時空間離散化を用いて、速度依存ひずみ勾配塑性モデルの解を近似する。
物理情報ニューラルネットワークからインスピレーションを得て、PIDLモデルの損失関数をいくつかの新しい方法で修正する。
本稿では, PIDL法がひずみ可塑性モデルによって生じる計算問題にどのように対処できるかを示す。
論文 参考訳(メタデータ) (2024-08-13T06:02:05Z) - DiffMimic: Efficient Motion Mimicking with Differentiable Physics [41.442225872857136]
我々は微分可能な物理シミュレータ(DPS)を活用し、DiffMimicと呼ばれる効率的な運動模倣法を提案する。
我々の重要な洞察は、DPSが複雑なポリシー学習タスクを、より単純な状態マッチング問題に向けていることです。
標準ベンチマークでの大規模な実験は、DiffMimicが既存の方法よりもサンプル効率と時間効率が優れていることを示している。
論文 参考訳(メタデータ) (2023-04-06T17:56:22Z) - Complex Locomotion Skill Learning via Differentiable Physics [30.868690308658174]
微分物理学は、ニューラルネットワーク(NN)コントローラの効率的な最適化を可能にする。
本稿では,複雑度と多様性を著しく向上したタスクが可能な統一NNコントローラを出力する実践的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:01:12Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - DiffSkill: Skill Abstraction from Differentiable Physics for Deformable
Object Manipulations with Tools [96.38972082580294]
DiffSkillは、変形可能なオブジェクト操作タスクを解決するために、スキル抽象化に微分可能な物理シミュレータを使用する新しいフレームワークである。
特に、勾配に基づくシミュレーターから個々のツールを用いて、まず短距離のスキルを得る。
次に、RGBD画像を入力として取り込む実演軌跡から、ニューラルネットワークの抽象体を学習する。
論文 参考訳(メタデータ) (2022-03-31T17:59:38Z) - Efficient Differentiable Simulation of Articulated Bodies [89.64118042429287]
本稿では, 音素の効率的な微分可能シミュレーション法を提案する。
これにより、ボディダイナミクスを深層学習フレームワークに統合することが可能になる。
提案手法を用いて, 調音システムによる強化学習を高速化できることを示す。
論文 参考訳(メタデータ) (2021-09-16T04:48:13Z) - PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable
Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。
各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。
本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文 参考訳(メタデータ) (2021-04-07T17:59:23Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。