論文の概要: Model-Based Reinforcement Learning for Physical Systems Without Velocity
and Acceleration Measurements
- arxiv url: http://arxiv.org/abs/2002.10621v1
- Date: Tue, 25 Feb 2020 01:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 21:28:06.262310
- Title: Model-Based Reinforcement Learning for Physical Systems Without Velocity
and Acceleration Measurements
- Title(参考訳): 速度・加速度測定のない物理系のモデルベース強化学習
- Authors: Alberto Dalla Libera, Diego Romeres, Devesh K. Jha, Bill Yerazunis and
Daniel Nikovski
- Abstract要約: ガウス過程回帰(GPR)に基づく強化学習(RL)アルゴリズムのための微分自由モデル学習フレームワークを提案する。
多くのメカニカルシステムでは、計測器によって位置のみを測定することができる。
2つの実プラットフォームで実施されたテストでは,提案モデルと組み合わせた状態定義により,推定性能が向上することが示された。
- 参考スコア(独自算出の注目度): 19.060544153434428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a derivative-free model learning framework for
Reinforcement Learning (RL) algorithms based on Gaussian Process Regression
(GPR). In many mechanical systems, only positions can be measured by the
sensing instruments. Then, instead of representing the system state as
suggested by the physics with a collection of positions, velocities, and
accelerations, we define the state as the set of past position measurements.
However, the equation of motions derived by physical first principles cannot be
directly applied in this framework, being functions of velocities and
accelerations. For this reason, we introduce a novel derivative-free
physically-inspired kernel, which can be easily combined with nonparametric
derivative-free Gaussian Process models. Tests performed on two real platforms
show that the considered state definition combined with the proposed model
improves estimation performance and data-efficiency w.r.t. traditional models
based on GPR. Finally, we validate the proposed framework by solving two RL
control problems for two real robotic systems.
- Abstract(参考訳): 本稿では,ガウス過程回帰(GPR)に基づく強化学習(RL)アルゴリズムのための微分自由モデル学習フレームワークを提案する。
多くの機械システムでは、センシング機器によってのみ位置を測定することができる。
そして、位置、速度、加速度の集合で物理によって示唆されるシステム状態を表す代わりに、状態は過去の位置測定の集合として定義する。
しかし、物理第一原理によって導かれる運動方程式は、速度と加速度の関数であるこの枠組みでは直接適用できない。
そこで我々は,非パラメトリック微分フリーガウス過程モデルと容易に結合できる,新しい微分フリー物理インスパイアされたカーネルを提案する。
2つの実プラットフォームで実施したテストでは,提案モデルと組み合わせた状態定義により,gprに基づく推定性能とデータ効率が向上することが示された。
最後に,実ロボットシステムにおける2つのrl制御問題を解決することで,提案手法を検証する。
関連論文リスト
- KFD-NeRF: Rethinking Dynamic NeRF with Kalman Filter [49.85369344101118]
KFD-NeRFは,Kalmanフィルタに基づく効率的かつ高品質な運動再構成フレームワークと統合された,新しい動的ニューラル放射場である。
我々のキーとなる考え方は、動的放射場を、観測と予測という2つの知識源に基づいて時間的に異なる状態が推定される動的システムとしてモデル化することである。
我々のKFD-NeRFは、同等の計算時間と最先端の視線合成性能で、徹底的な訓練を施した類似または優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-18T05:48:24Z) - Event-Aided Time-to-Collision Estimation for Autonomous Driving [28.13397992839372]
ニューロモルフィックなイベントベースカメラを用いて衝突時刻を推定する新しい手法を提案する。
提案アルゴリズムは, 事象データに適合する幾何モデルに対して, 効率的かつ高精度な2段階のアプローチで構成する。
合成データと実データの両方の実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-10T02:37:36Z) - Newton-Cotes Graph Neural Networks: On the Time Evolution of Dynamic
Systems [49.50674348130157]
本稿では,ニュートン・コーツの公式を用いた速度推定に基づく積分の予測手法を提案する。
いくつかのベンチマークの実験は、最先端の手法と比較して、一貫性と顕著な改善を実証的に示している。
論文 参考訳(メタデータ) (2023-05-24T02:23:00Z) - Learning Neural Constitutive Laws From Motion Observations for
Generalizable PDE Dynamics [97.38308257547186]
多くのNNアプローチは、支配的PDEと物質モデルの両方を暗黙的にモデル化するエンドツーエンドモデルを学ぶ。
PDEの管理はよく知られており、学習よりも明示的に実施されるべきである、と私たちは主張する。
そこで我々は,ネットワークアーキテクチャを利用したニューラル構成則(Neural Constitutive Laws,NCLaw)と呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-04-27T17:42:24Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Physics-integrated hybrid framework for model form error identification
in nonlinear dynamical systems [0.0]
実生活の非線形系では、正確な非線形性の形式はよく知られておらず、既知の支配方程式は特定の仮定や近似に基づいていることが多い。
モデル形状の誤差を識別するだけでなく、既知のが近似的な支配方程式の予測能力を向上させるためにも活用する、新しいグレーボックスモデリング手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T16:29:21Z) - Macroscopic Traffic Flow Modeling with Physics Regularized Gaussian
Process: Generalized Formulations [5.827236278192557]
本研究では,物理正規化ガウス過程(PRGP)という新しいモデリングフレームワークを提案する。
この新しいアプローチは、物理モデル、すなわち古典的なトラフィックフローモデルをガウスのプロセスアーキテクチャにエンコードし、機械学習のトレーニングプロセスを規則化する。
提案手法の有効性を証明するため,ユタ州I-15高速道路から収集した実世界のデータセットについて実験的検討を行った。
論文 参考訳(メタデータ) (2020-07-14T17:27:23Z) - Real-Time Model Calibration with Deep Reinforcement Learning [4.707841918805165]
本稿では,強化学習に基づくモデルパラメータ推定のための新しいフレームワークを提案する。
提案手法を2つのモデルベース診断試験ケースで実証し, 評価した。
論文 参考訳(メタデータ) (2020-06-07T00:11:42Z) - Macroscopic Traffic Flow Modeling with Physics Regularized Gaussian
Process: A New Insight into Machine Learning Applications [14.164058812512371]
本研究では,古典的トラフィックフローモデルを機械学習アーキテクチャにエンコードする,物理正規化機械学習(PRML)という新しいモデリングフレームワークを提案する。
提案手法の有効性を実証するため,ユタ州I-15高速道路から収集した実世界のデータセットについて実験的検討を行った。
論文 参考訳(メタデータ) (2020-02-06T17:22:20Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。