論文の概要: Learning from Demonstration with Implicit Nonlinear Dynamics Models
- arxiv url: http://arxiv.org/abs/2409.18768v2
- Date: Tue, 1 Oct 2024 20:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 05:32:49.712598
- Title: Learning from Demonstration with Implicit Nonlinear Dynamics Models
- Title(参考訳): 含意非線形ダイナミクスモデルによるデモから学ぶ
- Authors: Peter David Fagan, Subramanian Ramamoorthy,
- Abstract要約: 本研究では、時間的ダイナミクスをモデル化するための可変な動的特性を持つ固定非線形力学系を含むリカレントニューラルネットワーク層を開発する。
LASA Human Handwriting データセットを用いて人間の手書き動作を再現する作業において,ニューラルネットワーク層の有効性を検証する。
- 参考スコア(独自算出の注目度): 16.26835655544884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from Demonstration (LfD) is a useful paradigm for training policies that solve tasks involving complex motions, such as those encountered in robotic manipulation. In practice, the successful application of LfD requires overcoming error accumulation during policy execution, i.e. the problem of drift due to errors compounding over time and the consequent out-of-distribution behaviours. Existing works seek to address this problem through scaling data collection, correcting policy errors with a human-in-the-loop, temporally ensembling policy predictions or through learning a dynamical system model with convergence guarantees. In this work, we propose and validate an alternative approach to overcoming this issue. Inspired by reservoir computing, we develop a recurrent neural network layer that includes a fixed nonlinear dynamical system with tunable dynamical properties for modelling temporal dynamics. We validate the efficacy of our neural network layer on the task of reproducing human handwriting motions using the LASA Human Handwriting Dataset. Through empirical experiments we demonstrate that incorporating our layer into existing neural network architectures addresses the issue of compounding errors in LfD. Furthermore, we perform a comparative evaluation against existing approaches including a temporal ensemble of policy predictions and an Echo State Network (ESN) implementation. We find that our approach yields greater policy precision and robustness on the handwriting task while also generalising to multiple dynamics regimes and maintaining competitive latency scores.
- Abstract(参考訳): 実証から学ぶ(LfD)は、ロボット操作で遭遇したような複雑な動作を含むタスクを解決するためのトレーニングポリシーの有用なパラダイムである。
実際には、LfDを成功させるためには、ポリシー実行中にエラーの蓄積を克服する必要がある。
既存の研究は、データ収集のスケーリング、ヒューマン・イン・ザ・ループによるポリシーエラーの修正、ポリシー予測の時間的アンサンブル、収束保証を伴う動的システムモデル学習などを通じてこの問題に対処しようとしている。
本研究では,この問題を克服するための代替手法を提案し,検証する。
貯水池計算にインスパイアされたニューラルネットワーク層は、時間的ダイナミクスをモデル化するための調整可能な動的特性を持つ固定非線形力学系を含む。
LASA Human Handwriting Dataset を用いて人間の手書き動作を再現する作業において,ニューラルネットワーク層の有効性を検証する。
経験的な実験を通じて、我々の層を既存のニューラルネットワークアーキテクチャに組み込むことで、LfDの複雑なエラーに対処できることが実証された。
さらに,政策予測の時間的アンサンブルやEcho State Network (ESN) の実装など,既存のアプローチとの比較評価を行った。
提案手法は,複数の動的状態に一般化し,競合レイテンシのスコアを維持するとともに,手書き作業においてより正確なポリシ精度とロバスト性を実現する。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - SINDy-RL: Interpretable and Efficient Model-Based Reinforcement Learning [5.59265003686955]
SINDy-RLは,SINDyと深層強化学習を組み合わせたフレームワークである。
SINDy-RLは最先端のDRLアルゴリズムに匹敵する性能を達成する。
我々は,ベンチマーク制御環境と流体問題に対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-14T05:17:39Z) - Semi-Supervised Learning of Dynamical Systems with Neural Ordinary
Differential Equations: A Teacher-Student Model Approach [10.20098335268973]
TS-NODEは、NODEで動的システムのモデリングを行うための、最初の半教師付きアプローチである。
複数の動的システムモデリングタスクにおいて,ベースラインのNeural ODEモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-19T19:17:12Z) - Brain-Inspired Spiking Neural Network for Online Unsupervised Time
Series Prediction [13.521272923545409]
連続学習に基づく非教師付きリカレントスパイキングニューラルネットワークモデル(CLURSNN)を提案する。
CLURSNNは、ランダム遅延埋め込み(Random Delay Embedding)を使用して基盤となる動的システムを再構築することで、オンライン予測を行う。
提案手法は,進化するロレンツ63力学系を予測する際に,最先端のDNNモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-10T16:18:37Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Inverse-Dirichlet Weighting Enables Reliable Training of Physics
Informed Neural Networks [2.580765958706854]
我々は、深層ニューラルネットワークのトレーニング中に、スケール不均衡を伴うマルチスケールダイナミクスから生じる障害モードを記述し、治療する。
PINNは、物理方程式モデルとデータとのシームレスな統合を可能にする、一般的な機械学習テンプレートである。
逐次トレーニングを用いた逆モデリングでは,逆ディリクレ重み付けがPINNを破滅的忘れから保護することがわかった。
論文 参考訳(メタデータ) (2021-07-02T10:01:37Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。