論文の概要: Learning to Walk from Three Minutes of Real-World Data with Semi-structured Dynamics Models
- arxiv url: http://arxiv.org/abs/2410.09163v1
- Date: Mon, 28 Oct 2024 17:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 16:03:11.135676
- Title: Learning to Walk from Three Minutes of Real-World Data with Semi-structured Dynamics Models
- Title(参考訳): 半構造化ダイナミクスモデルを用いた実世界の3分間の歩行学習
- Authors: Jacob Levy, Tyler Westenbroek, David Fridovich-Keil,
- Abstract要約: コンタクトリッチシステムのための半構造化力学モデルを学習するための新しいフレームワークを提案する。
我々は,従来の手法よりもはるかに少ないデータで高精度な長距離予測を行う。
実世界のUnitree Go1四足歩行ロボットに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 9.318262213262866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditionally, model-based reinforcement learning (MBRL) methods exploit neural networks as flexible function approximators to represent a priori unknown environment dynamics. However, training data are typically scarce in practice, and these black-box models often fail to generalize. Modeling architectures that leverage known physics can substantially reduce the complexity of system-identification, but break down in the face of complex phenomena such as contact. We introduce a novel framework for learning semi-structured dynamics models for contact-rich systems which seamlessly integrates structured first principles modeling techniques with black-box auto-regressive models. Specifically, we develop an ensemble of probabilistic models to estimate external forces, conditioned on historical observations and actions, and integrate these predictions using known Lagrangian dynamics. With this semi-structured approach, we can make accurate long-horizon predictions with substantially less data than prior methods. We leverage this capability and propose Semi-Structured Reinforcement Learning (SSRL) a simple model-based learning framework which pushes the sample complexity boundary for real-world learning. We validate our approach on a real-world Unitree Go1 quadruped robot, learning dynamic gaits -- from scratch -- on both hard and soft surfaces with just a few minutes of real-world data. Video and code are available at: https://sites.google.com/utexas.edu/ssrl
- Abstract(参考訳): 伝統的に、モデルベース強化学習(MBRL)手法は、ニューラルネットワークをフレキシブル関数近似器として利用して、事前の未知の環境ダイナミクスを表現する。
しかし、トレーニングデータは実際にはほとんどなく、これらのブラックボックスモデルは一般化に失敗することが多い。
既知の物理を利用するモデリングアーキテクチャは、システム同定の複雑さを大幅に減らすが、接触のような複雑な現象に直面して分解する。
我々は,ブラックボックスの自動回帰モデルを用いた構造化第一原理モデリング手法をシームレスに統合した,コンタクトリッチシステムのための半構造化力学モデルを学習するための新しいフレームワークを提案する。
具体的には,外力推定のための確率モデルのアンサンブルを開発し,これらの予測を既知のラグランジアン力学を用いて統合する。
この半構造化アプローチにより、従来の手法よりもはるかに少ないデータで正確な長距離予測を行うことができる。
我々は,この能力を活用し,実世界の学習のために,サンプル複雑性境界を推し進めるシンプルなモデルベース学習フレームワークであるセミ構造化強化学習(SSRL)を提案する。
実際のUnitree Go1四足歩行ロボットに対する我々のアプローチを検証する。
https://sites.google.com/utexas.edu/ssrl
関連論文リスト
- Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。
長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。
このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文 参考訳(メタデータ) (2024-10-11T15:10:40Z) - Learning to Continually Learn with the Bayesian Principle [36.75558255534538]
本研究では、ニューラルネットワークの強力な表現力と、忘れることに対する単純な統計モデルの堅牢性を組み合わせたメタラーニングパラダイムを採用する。
ニューラルネットワークは継続学習中に固定されているため、破滅的な忘れ物から保護されている。
論文 参考訳(メタデータ) (2024-05-29T04:53:31Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Learning Latent Dynamics via Invariant Decomposition and
(Spatio-)Temporal Transformers [0.6767885381740952]
本研究では,高次元経験データから力学系を学習する手法を提案する。
我々は、システムの複数の異なるインスタンスからデータが利用できる設定に焦点を当てる。
我々は、単純な理論的分析と、合成および実世界のデータセットに関する広範な実験を通して行動を研究する。
論文 参考訳(メタデータ) (2023-06-21T07:52:07Z) - Dynamic Mixed Membership Stochastic Block Model for Weighted Labeled
Networks [3.5450828190071655]
混合メンバシップブロックモデル(MMSBM)の新たなファミリーは、混合メンバシップクラスタリングを前提として静的ラベル付きネットワークをモデル化することができる。
提案手法は既存手法とは大きく異なり,より複雑なシステム - 動的ラベル付きネットワークをモデル化できることを示す。
論文 参考訳(メタデータ) (2023-04-12T15:01:03Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Real-time Neural-MPC: Deep Learning Model Predictive Control for
Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。
ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z) - Model-Based Deep Learning [155.063817656602]
信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。
ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、優れたパフォーマンスを示す。
私たちは、原理数学モデルとデータ駆動システムを組み合わせて両方のアプローチの利点を享受するハイブリッド技術に興味があります。
論文 参考訳(メタデータ) (2020-12-15T16:29:49Z) - Differentiable Physics Models for Real-world Offline Model-based
Reinforcement Learning [34.558299591341]
モデルに基づく強化学習の制限は、学習モデルにおけるエラーの活用である。
物理モデルを用いたモデルは,機械構造が知られている場合,高容量関数近似器と比較して有益であることを示す。
論文 参考訳(メタデータ) (2020-11-03T14:37:53Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Learning Stable Deep Dynamics Models [91.90131512825504]
状態空間全体にわたって安定することが保証される力学系を学習するためのアプローチを提案する。
このような学習システムは、単純な力学系をモデル化することができ、複雑な力学を学習するために追加の深層生成モデルと組み合わせることができることを示す。
論文 参考訳(メタデータ) (2020-01-17T00:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。