論文の概要: Physics-informed reinforcement learning via probabilistic co-adjustment
functions
- arxiv url: http://arxiv.org/abs/2309.05404v1
- Date: Mon, 11 Sep 2023 12:10:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 12:47:48.792234
- Title: Physics-informed reinforcement learning via probabilistic co-adjustment
functions
- Title(参考訳): 確率的共調整関数による物理形強化学習
- Authors: Nat Wannawas, A. Aldo Faisal
- Abstract要約: 両手法の利点を組み合わせた新しい手法として,コクリグ調整 (CKA) とリッジ回帰調整 (RRA) を導入する。
本手法は,GPプリエントと統合した自己回帰AR1コクリグモデルに基づく。
- 参考スコア(独自算出の注目度): 3.6787556334630334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning of real-world tasks is very data inefficient, and
extensive simulation-based modelling has become the dominant approach for
training systems. However, in human-robot interaction and many other real-world
settings, there is no appropriate one-model-for-all due to differences in
individual instances of the system (e.g. different people) or necessary
oversimplifications in the simulation models. This requires two approaches: 1.
either learning the individual system's dynamics approximately from data which
requires data-intensive training or 2. using a complete digital twin of the
instances, which may not be realisable in many cases. We introduce two
approaches: co-kriging adjustments (CKA) and ridge regression adjustment (RRA)
as novel ways to combine the advantages of both approaches. Our adjustment
methods are based on an auto-regressive AR1 co-kriging model that we integrate
with GP priors. This yield a data- and simulation-efficient way of using
simplistic simulation models (e.g., simple two-link model) and rapidly adapting
them to individual instances (e.g., biomechanics of individual people). Using
CKA and RRA, we obtain more accurate uncertainty quantification of the entire
system's dynamics than pure GP-based and AR1 methods. We demonstrate the
efficiency of co-kriging adjustment with an interpretable reinforcement
learning control example, learning to control a biomechanical human arm using
only a two-link arm simulation model (offline part) and CKA derived from a
small amount of interaction data (on-the-fly online). Our method unlocks an
efficient and uncertainty-aware way to implement reinforcement learning methods
in real world complex systems for which only imperfect simulation models exist.
- Abstract(参考訳): 実世界のタスクの強化学習は非常に非効率であり、広範なシミュレーションベースのモデリングがトレーニングシステムの主流となっている。
しかし、人間とロボットの相互作用やその他の現実世界の設定では、システムの個々のインスタンス(例えば、異なる人間)の違いや、シミュレーションモデルにおける必要過剰な単純化のために、すべてに対して適切な1つのモデルは存在しない。
これには2つのアプローチが必要です
1.データ集約トレーニングを必要とするデータから、個々のシステムのダイナミクスを学習するか、または、
2. 多くの場合、実現不可能なインスタンスの完全なデジタルツインを使用すること。
両手法の利点を組み合わせる新しい方法として,コクリグ調整 (CKA) とリッジ回帰調整 (RRA) の2つの手法を導入する。
本手法は,GPプリエントと統合した自己回帰AR1コクリグモデルに基づく。
これにより、単純化されたシミュレーションモデル(単純な2リンクモデルなど)を使用し、個々のインスタンス(例えば、個人の生体力学)に迅速に適応する、データとシミュレーション効率のよい方法が得られる。
CKA と RRA を用いて,純粋な GP 法と AR1 法よりもシステム全体の力学の精度の高い不確かさを定量化する。
本稿では,2リンクアームシミュレーションモデル(オフライン部)と少量のインタラクションデータ(オンザフライオンライン)から得られたCKAのみを用いて,バイオメカニカル・ヒューマン・アームの制御を学習する,解釈可能な強化学習制御の例を用いて,協調訓練の効率を実証する。
本手法は,不完全シミュレーションモデルのみが存在する実世界の複雑なシステムにおいて,強化学習手法を実装するための効率的かつ不確実性を考慮した手法である。
関連論文リスト
- Learning Low-Dimensional Strain Models of Soft Robots by Looking at the Evolution of Their Shape with Application to Model-Based Control [2.058941610795796]
本稿では,低次元物理モデル学習のための合理化手法を提案する。
各種平面ソフトマニピュレータを用いたシミュレーションにより,本手法の有効性を検証した。
物理的に互換性のあるモデルを生成する方法のおかげで、学習したモデルはモデルベースの制御ポリシーと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2024-10-31T18:37:22Z) - A Multi-Grained Symmetric Differential Equation Model for Learning Protein-Ligand Binding Dynamics [73.35846234413611]
薬物発見において、分子動力学(MD)シミュレーションは、結合親和性を予測し、輸送特性を推定し、ポケットサイトを探索する強力なツールを提供する。
我々は,数値MDを容易にし,タンパク質-リガンド結合ダイナミクスの正確なシミュレーションを提供する,最初の機械学習サロゲートであるNeuralMDを提案する。
従来の数値MDシミュレーションと比較して1K$times$ Speedupを実現することにより,NeuralMDの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-01-26T09:35:17Z) - Learning Latent Dynamics via Invariant Decomposition and
(Spatio-)Temporal Transformers [0.6767885381740952]
本研究では,高次元経験データから力学系を学習する手法を提案する。
我々は、システムの複数の異なるインスタンスからデータが利用できる設定に焦点を当てる。
我々は、単純な理論的分析と、合成および実世界のデータセットに関する広範な実験を通して行動を研究する。
論文 参考訳(メタデータ) (2023-06-21T07:52:07Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - KNODE-MPC: A Knowledge-based Data-driven Predictive Control Framework
for Aerial Robots [5.897728689802829]
我々は、知識に基づくニューラル常微分方程式(KNODE)というディープラーニングツールを用いて、第一原理から得られたモデルを拡張する。
得られたハイブリッドモデルは、名目上の第一原理モデルと、シミュレーションまたは実世界の実験データから学習したニューラルネットワークの両方を含む。
閉ループ性能を改善するため、ハイブリッドモデルはKNODE-MPCとして知られる新しいMPCフレームワークに統合される。
論文 参考訳(メタデータ) (2021-09-10T12:09:18Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Fast Online Adaptation in Robotics through Meta-Learning Embeddings of
Simulated Priors [3.4376560669160385]
現実の世界では、ロボットはモーターの故障から岩の多い地形で自分自身を見つけるまで、あらゆる状況に遭遇するかもしれない。
FAMLEにより、ロボットはベースラインよりもはるかに少ない時間で、新たな損傷に適応できることを示す。
論文 参考訳(メタデータ) (2020-03-10T12:37:52Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。