論文の概要: Differentiable Physics Models for Real-world Offline Model-based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.01734v1
- Date: Tue, 3 Nov 2020 14:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 06:03:22.564827
- Title: Differentiable Physics Models for Real-world Offline Model-based
Reinforcement Learning
- Title(参考訳): 実世界のオフラインモデルに基づく強化学習のための微分可能な物理モデル
- Authors: Michael Lutter, Johannes Silberbauer, Joe Watson, Jan Peters
- Abstract要約: モデルに基づく強化学習の制限は、学習モデルにおけるエラーの活用である。
物理モデルを用いたモデルは,機械構造が知られている場合,高容量関数近似器と比較して有益であることを示す。
- 参考スコア(独自算出の注目度): 34.558299591341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A limitation of model-based reinforcement learning (MBRL) is the exploitation
of errors in the learned models. Black-box models can fit complex dynamics with
high fidelity, but their behavior is undefined outside of the data
distribution.Physics-based models are better at extrapolating, due to the
general validity of their informed structure, but underfit in the real world
due to the presence of unmodeled phenomena. In this work, we demonstrate
experimentally that for the offline model-based reinforcement learning setting,
physics-based models can be beneficial compared to high-capacity function
approximators if the mechanical structure is known. Physics-based models can
learn to perform the ball in a cup (BiC) task on a physical manipulator using
only 4 minutes of sampled data using offline MBRL. We find that black-box
models consistently produce unviable policies for BiC as all predicted
trajectories diverge to physically impossible state, despite having access to
more data than the physics-based model. In addition, we generalize the approach
of physics parameter identification from modeling holonomic multi-body systems
to systems with nonholonomic dynamics using end-to-end automatic
differentiation.
Videos: https://sites.google.com/view/ball-in-a-cup-in-4-minutes/
- Abstract(参考訳): モデルベース強化学習(MBRL)の限界は、学習モデルにおける誤りの活用である。
ブラックボックスモデルは複雑なダイナミクスと高い忠実性に適合するが、その振る舞いはデータ分布の外では定義されていない。物理学に基づくモデルは、インフォームドな構造が一般的に有効であるため、外挿する上では優れているが、非モデリング現象の存在により実世界では不適当である。
本研究では,オフラインモデルに基づく強化学習環境において,機械構造が分かっている場合,高容量関数近似器と比較して物理モデルが有益であることを実験的に示す。
物理モデルに基づくモデルは、オフラインのMBRLを使用してサンプルデータのわずか4分で物理マニピュレータ上のカップ(BiC)タスクでボールを実行できる。
ブラックボックスモデルは、物理ベースモデルよりも多くのデータにアクセスできたにもかかわらず、予測されるすべての軌道が物理的に不可能な状態に分岐するので、常にビックに対して不可能なポリシーを生成する。
さらに、ホロノミック多体系のモデリングから、エンドツーエンドの自動微分を用いた非ホロノミック力学系への物理パラメータ同定のアプローチを一般化する。
ビデオ: https://sites.google.com/view/ball-in-a-cup-in-4- minutes/
関連論文リスト
- Learning to Walk from Three Minutes of Real-World Data with Semi-structured Dynamics Models [9.318262213262866]
コンタクトリッチシステムのための半構造化力学モデルを学習するための新しいフレームワークを提案する。
我々は,従来の手法よりもはるかに少ないデータで高精度な長距離予測を行う。
実世界のUnitree Go1四足歩行ロボットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-10-11T18:11:21Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Differentiable physics-enabled closure modeling for Burgers' turbulence [0.0]
本稿では、既知の物理と機械学習を組み合わせて乱流問題に対するクロージャモデルを開発する微分可能な物理パラダイムを用いたアプローチについて論じる。
我々は、モデルの有効性をテストするために、後方損失関数上の様々な物理仮定を組み込んだ一連のモデルを訓練する。
既知物理あるいは既存の閉包アプローチを含む偏微分方程式の形で帰納バイアスを持つ制約モデルが、非常にデータ効率が高く、正確で、一般化可能なモデルを生成することを発見した。
論文 参考訳(メタデータ) (2022-09-23T14:38:01Z) - Human Trajectory Prediction via Neural Social Physics [63.62824628085961]
軌道予測は多くの分野において広く研究され、多くのモデルベースおよびモデルフリーな手法が研究されている。
ニューラル微分方程式モデルに基づく新しい手法を提案する。
我々の新しいモデル(ニューラル社会物理学またはNSP)は、学習可能なパラメータを持つ明示的な物理モデルを使用するディープニューラルネットワークである。
論文 参考訳(メタデータ) (2022-07-21T12:11:18Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Automated Dissipation Control for Turbulence Simulation with Shell
Models [1.675857332621569]
機械学習(ML)技術の応用、特にニューラルネットワークは、画像や言語を処理する上で大きな成功を収めています。
本研究は,Gledzer-Ohkitani-yamadaシェルモデルを用いて,乱流の簡易表現を構築する。
本稿では,自己相似慣性範囲スケーリングなどの乱流の統計的特性を再構築する手法を提案する。
論文 参考訳(メタデータ) (2022-01-07T15:03:52Z) - Which priors matter? Benchmarking models for learning latent dynamics [70.88999063639146]
古典力学の先行概念を機械学習モデルに統合する手法が提案されている。
これらのモデルの現在の機能について、精査する。
連続的および時間的可逆的ダイナミクスの使用は、すべてのクラスのモデルに恩恵をもたらす。
論文 参考訳(メタデータ) (2021-11-09T23:48:21Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z) - Data-Efficient Learning for Complex and Real-Time Physical Problem
Solving using Augmented Simulation [49.631034790080406]
本稿では,大理石を円形迷路の中心まで航行する作業について述べる。
実システムと対話する数分以内に,複雑な環境で大理石を動かすことを学習するモデルを提案する。
論文 参考訳(メタデータ) (2020-11-14T02:03:08Z) - Modeling System Dynamics with Physics-Informed Neural Networks Based on
Lagrangian Mechanics [3.214927790437842]
第一原則の手法は高いバイアスに悩まされるが、データ駆動モデリングは高いばらつきを持つ傾向がある。
本稿では,2つのモデリング手法を組み合わせて上記の問題を解くハイブリッドモデルであるPINODEについて述べる。
本研究の目的は,機械系のモデルベース制御とシステム同定である。
論文 参考訳(メタデータ) (2020-05-29T15:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。