論文の概要: Closed-loop deep learning: generating forward models with
back-propagation
- arxiv url: http://arxiv.org/abs/2001.02970v2
- Date: Mon, 13 Jan 2020 11:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 04:41:22.051731
- Title: Closed-loop deep learning: generating forward models with
back-propagation
- Title(参考訳): クローズドループディープラーニング:バックプロパゲーションによるフォワードモデルの生成
- Authors: Sama Daryanavard, Bernd Porr
- Abstract要約: 反射は単純なクローズドループ制御アプローチであり、エラーを最小化しようとするが、反応が遅すぎるため失敗する。
適応アルゴリズムは、この誤差を利用して予測的手がかりの助けを借りて前方モデルを学ぶことができる。
ディープラーニングをクローズドループシステムに組み込んで,その連続処理を保存することで,これを直接実現できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A reflex is a simple closed loop control approach which tries to minimise an
error but fails to do so because it will always react too late. An adaptive
algorithm can use this error to learn a forward model with the help of
predictive cues. For example a driver learns to improve their steering by
looking ahead to avoid steering in the last minute. In order to process complex
cues such as the road ahead deep learning is a natural choice. However, this is
usually only achieved indirectly by employing deep reinforcement learning
having a discrete state space. Here, we show how this can be directly achieved
by embedding deep learning into a closed loop system and preserving its
continuous processing. We show specifically how error back-propagation can be
achieved in z-space and in general how gradient based approaches can be
analysed in such closed loop scenarios. The performance of this learning
paradigm is demonstrated using a line-follower both in simulation and on a real
robot that show very fast and continuous learning.
- Abstract(参考訳): 反射は単純なクローズドループ制御アプローチであり、エラーを最小限にしようとするが、反応が遅すぎるため失敗する。
適応アルゴリズムはこの誤差を利用して予測手がかりを用いて前方モデルを学ぶことができる。
例えば、ドライバーは、最後の数分でステアリングを避けるために前を向いて、ステアリングを改善することを学ぶ。
深層学習を先導する道のような複雑な方法を処理することは自然な選択です。
しかし、これは通常、離散状態空間を持つ深層強化学習を用いることで間接的にのみ達成される。
ここでは,ディープラーニングをクローズドループシステムに組み込んで,その継続的処理を維持することで,これを直接達成できることを示す。
具体的には,z空間でエラーバックプロパゲーションを実現する方法と,そのような閉ループシナリオにおいて勾配に基づくアプローチがどのように解析されるかを示す。
この学習パラダイムの性能は、シミュレーションと、非常に高速かつ連続的な学習を示す実ロボットの両方において、ラインフォロワを用いて実証される。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Refining Pre-Trained Motion Models [56.18044168821188]
我々は、自己教師付きトレーニングによる最先端の教師付きモデルの改善に挑戦する。
実世界の未学習ビデオから「クリーン」な訓練信号を得ることに重点を置いている。
本研究では,本手法が実動画における完全教師付き手法よりも信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-01-01T18:59:33Z) - Prime and Modulate Learning: Generation of forward models with signed
back-propagation and environmental cues [0.0]
エラーバックプロパゲーションを学習に用いたディープニューラルネットワークは、爆発や勾配問題の解消に悩まされる可能性がある。
この研究では、バックプロパゲーションがエラー信号の符号を排他的に利用して学習を素数化する、別のアプローチに従う。
本稿では,z空間における学習規則の数学的導出と,ロボットプラットフォームによるリアルタイム性能の実証を行う。
論文 参考訳(メタデータ) (2023-09-07T16:34:30Z) - Can Direct Latent Model Learning Solve Linear Quadratic Gaussian
Control? [75.14973944905216]
本研究では,高次元観測から状態表現を学習する課題について検討する。
我々は,ある潜在状態空間における動的モデルを,計画に直接関連する量を予測することによって学習する,直接潜在モデル学習手法を追求する。
論文 参考訳(メタデータ) (2022-12-30T01:42:04Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Feedback Linearization of Car Dynamics for Racing via Reinforcement
Learning [0.0]
我々は、自動走行する車の制御プロセスを簡素化するために、リニアライゼーションコントローラを学ぼうとしている。
ソフトアクター批判的手法は、手動設計の線形化制御器の誤差を効果的に補正するデカップリング行列とドリフトベクトルを学習するために用いられる。
そこで我々は、線形化制御器の出力をレース環境に必要な入力に変換するために教師付き学習を用いてトレーニングされたニューラルネットワークであるフィードバック線形化法の拡張を提案する。
論文 参考訳(メタデータ) (2021-10-20T09:11:18Z) - Autoencoder based Randomized Learning of Feedforward Neural Networks for
Regression [0.0]
勾配に基づく学習は多くの欠点に悩まされ、トレーニングプロセスは効果がなく、時間がかかります。
正規化学習では勾配は使用せず、隠れノードパラメータをランダムに選択する。
近年,教師なしパラメータ学習にオートエンコーダを用いた手法が提案されている。
論文 参考訳(メタデータ) (2021-07-04T19:07:39Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Episodic Self-Imitation Learning with Hindsight [7.743320290728377]
エピソード自己像学習は、軌道選択モジュールと適応的損失関数を備えた新しい自己像アルゴリズムである。
更新の各エピソードから不正なサンプルをフィルタリングするために選択モジュールが導入された。
エピソード自己イメージ学習は、連続的な行動空間を持つ実世界の問題に適用できる可能性がある。
論文 参考訳(メタデータ) (2020-11-26T20:36:42Z) - Learning Navigation Costs from Demonstration with Semantic Observations [24.457042947946025]
本稿では,自律型ロボットナビゲーションにおける意味的観察を用いた逆強化学習(IRL)に焦点を当てた。
観測シーケンスからセマンティッククラス確率を推定するマップエンコーダと、セマンティックな特徴よりもディープニューラルネットワークとして定義されるコストエンコーダを開発する。
提案手法は,自動車,歩道,道路路面のセマンティックな観察に頼って,自律走行CARLAシミュレータにおける交通ルールに従うことを学習していることを示す。
論文 参考訳(メタデータ) (2020-06-09T04:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。