論文の概要: Model-Based Reinforcement Learning for Physical Systems Without Velocity
and Acceleration Measurements
- arxiv url: http://arxiv.org/abs/2002.10621v1
- Date: Tue, 25 Feb 2020 01:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 21:28:06.262310
- Title: Model-Based Reinforcement Learning for Physical Systems Without Velocity
and Acceleration Measurements
- Title(参考訳): 速度・加速度測定のない物理系のモデルベース強化学習
- Authors: Alberto Dalla Libera, Diego Romeres, Devesh K. Jha, Bill Yerazunis and
Daniel Nikovski
- Abstract要約: ガウス過程回帰(GPR)に基づく強化学習(RL)アルゴリズムのための微分自由モデル学習フレームワークを提案する。
多くのメカニカルシステムでは、計測器によって位置のみを測定することができる。
2つの実プラットフォームで実施されたテストでは,提案モデルと組み合わせた状態定義により,推定性能が向上することが示された。
- 参考スコア(独自算出の注目度): 19.060544153434428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a derivative-free model learning framework for
Reinforcement Learning (RL) algorithms based on Gaussian Process Regression
(GPR). In many mechanical systems, only positions can be measured by the
sensing instruments. Then, instead of representing the system state as
suggested by the physics with a collection of positions, velocities, and
accelerations, we define the state as the set of past position measurements.
However, the equation of motions derived by physical first principles cannot be
directly applied in this framework, being functions of velocities and
accelerations. For this reason, we introduce a novel derivative-free
physically-inspired kernel, which can be easily combined with nonparametric
derivative-free Gaussian Process models. Tests performed on two real platforms
show that the considered state definition combined with the proposed model
improves estimation performance and data-efficiency w.r.t. traditional models
based on GPR. Finally, we validate the proposed framework by solving two RL
control problems for two real robotic systems.
- Abstract(参考訳): 本稿では,ガウス過程回帰(GPR)に基づく強化学習(RL)アルゴリズムのための微分自由モデル学習フレームワークを提案する。
多くの機械システムでは、センシング機器によってのみ位置を測定することができる。
そして、位置、速度、加速度の集合で物理によって示唆されるシステム状態を表す代わりに、状態は過去の位置測定の集合として定義する。
しかし、物理第一原理によって導かれる運動方程式は、速度と加速度の関数であるこの枠組みでは直接適用できない。
そこで我々は,非パラメトリック微分フリーガウス過程モデルと容易に結合できる,新しい微分フリー物理インスパイアされたカーネルを提案する。
2つの実プラットフォームで実施したテストでは,提案モデルと組み合わせた状態定義により,gprに基づく推定性能とデータ効率が向上することが示された。
最後に,実ロボットシステムにおける2つのrl制御問題を解決することで,提案手法を検証する。
関連論文リスト
- A Multi-Grained Symmetric Differential Equation Model for Learning
Protein-Ligand Binding Dynamics [74.93549765488103]
薬物発見において、分子動力学シミュレーションは、結合親和性を予測し、輸送特性を推定し、ポケットサイトを探索する強力なツールを提供する。
我々は,数値MDを容易にし,タンパク質-リガンド結合の正確なシミュレーションを提供する,最初の機械学習サロゲートであるNeuralMDを提案する。
我々は、標準的な数値MDシミュレーションよりも2000$times$のスピードアップを達成し、安定性の指標の下では、他のMLアプローチよりも最大80%高い効率で、NeuralMDの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-01-26T09:35:17Z) - End-to-End Reinforcement Learning of Koopman Models for Economic
Nonlinear Model Predictive Control [50.0791489606211]
非線形モデル予測制御((e)NMPC)は、すべての状態空間領域において十分正確なシステムモデルを必要とする。
メカニスティックモデルのためのデータ駆動サロゲートモデルは、(e)NMPCの計算負担を軽減するために使用できる。
In this method for end-to-end reinforcement learning of dynamic surrogate model for optimal performance in (e)NMPC applications。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - Learning Neural Constitutive Laws From Motion Observations for
Generalizable PDE Dynamics [97.38308257547186]
多くのNNアプローチは、支配的PDEと物質モデルの両方を暗黙的にモデル化するエンドツーエンドモデルを学ぶ。
PDEの管理はよく知られており、学習よりも明示的に実施されるべきである、と私たちは主張する。
そこで我々は,ネットワークアーキテクチャを利用したニューラル構成則(Neural Constitutive Laws,NCLaw)と呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-04-27T17:42:24Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Physics-integrated hybrid framework for model form error identification
in nonlinear dynamical systems [0.0]
実生活の非線形系では、正確な非線形性の形式はよく知られておらず、既知の支配方程式は特定の仮定や近似に基づいていることが多い。
モデル形状の誤差を識別するだけでなく、既知のが近似的な支配方程式の予測能力を向上させるためにも活用する、新しいグレーボックスモデリング手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T16:29:21Z) - Macroscopic Traffic Flow Modeling with Physics Regularized Gaussian
Process: Generalized Formulations [5.827236278192557]
本研究では,物理正規化ガウス過程(PRGP)という新しいモデリングフレームワークを提案する。
この新しいアプローチは、物理モデル、すなわち古典的なトラフィックフローモデルをガウスのプロセスアーキテクチャにエンコードし、機械学習のトレーニングプロセスを規則化する。
提案手法の有効性を証明するため,ユタ州I-15高速道路から収集した実世界のデータセットについて実験的検討を行った。
論文 参考訳(メタデータ) (2020-07-14T17:27:23Z) - Real-Time Model Calibration with Deep Reinforcement Learning [4.707841918805165]
本稿では,強化学習に基づくモデルパラメータ推定のための新しいフレームワークを提案する。
提案手法を2つのモデルベース診断試験ケースで実証し, 評価した。
論文 参考訳(メタデータ) (2020-06-07T00:11:42Z) - Modeling System Dynamics with Physics-Informed Neural Networks Based on
Lagrangian Mechanics [3.214927790437842]
第一原則の手法は高いバイアスに悩まされるが、データ駆動モデリングは高いばらつきを持つ傾向がある。
本稿では,2つのモデリング手法を組み合わせて上記の問題を解くハイブリッドモデルであるPINODEについて述べる。
本研究の目的は,機械系のモデルベース制御とシステム同定である。
論文 参考訳(メタデータ) (2020-05-29T15:10:43Z) - Macroscopic Traffic Flow Modeling with Physics Regularized Gaussian
Process: A New Insight into Machine Learning Applications [14.164058812512371]
本研究では,古典的トラフィックフローモデルを機械学習アーキテクチャにエンコードする,物理正規化機械学習(PRML)という新しいモデリングフレームワークを提案する。
提案手法の有効性を実証するため,ユタ州I-15高速道路から収集した実世界のデータセットについて実験的検討を行った。
論文 参考訳(メタデータ) (2020-02-06T17:22:20Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。