論文の概要: Physical Derivatives: Computing policy gradients by physical
forward-propagation
- arxiv url: http://arxiv.org/abs/2201.05830v1
- Date: Sat, 15 Jan 2022 11:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 18:41:26.247115
- Title: Physical Derivatives: Computing policy gradients by physical
forward-propagation
- Title(参考訳): 物理デリバティブ:物理フォワードプロパゲーションによる政策勾配の計算
- Authors: Arash Mehrjou, Ashkan Soleymani, Stefan Bauer, Bernhard Sch\"olkopf
- Abstract要約: 動的モデルなしでよいポリシーを学ぶことは、違法にコストがかかる。
本研究では,遷移モデルの代わりにパラメータの摂動に対する軌道の感度を学習する中間層を提案する。
これにより、実際のモデルを知ることなく、一連の名目上のポリシーの周りの物理系の局所的な挙動を予測することができる。
- 参考スコア(独自算出の注目度): 28.29279610522437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-free and model-based reinforcement learning are two ends of a spectrum.
Learning a good policy without a dynamic model can be prohibitively expensive.
Learning the dynamic model of a system can reduce the cost of learning the
policy, but it can also introduce bias if it is not accurate. We propose a
middle ground where instead of the transition model, the sensitivity of the
trajectories with respect to the perturbation of the parameters is learned.
This allows us to predict the local behavior of the physical system around a
set of nominal policies without knowing the actual model. We assay our method
on a custom-built physical robot in extensive experiments and show the
feasibility of the approach in practice. We investigate potential challenges
when applying our method to physical systems and propose solutions to each of
them.
- Abstract(参考訳): モデルフリーとモデルベース強化学習はスペクトルの2つの端である。
動的モデルなしで良いポリシーを学ぶことは、禁止的に高価である。
システムの動的モデルを学ぶことは、ポリシーを学ぶコストを削減できるが、正確でなければバイアスをもたらすこともある。
本研究では, 遷移モデルの代わりに, パラメータの摂動に対する軌道の感度を学習する中間地盤を提案する。
これにより、実際のモデルを知ることなく、名目ポリシーのセットの周りの物理システムの局所的な振る舞いを予測できる。
提案手法は、広範囲な実験において、カスタム構築された物理ロボットを用いて評価し、実際的なアプローチの実現可能性を示す。
本手法を物理システムに適用する場合の潜在的な課題を調査し,その解決法を提案する。
関連論文リスト
- Learning Low-Dimensional Strain Models of Soft Robots by Looking at the Evolution of Their Shape with Application to Model-Based Control [2.058941610795796]
本稿では,低次元物理モデル学習のための合理化手法を提案する。
各種平面ソフトマニピュレータを用いたシミュレーションにより,本手法の有効性を検証した。
物理的に互換性のあるモデルを生成する方法のおかげで、学習したモデルはモデルベースの制御ポリシーと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2024-10-31T18:37:22Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - Learning Neural Constitutive Laws From Motion Observations for
Generalizable PDE Dynamics [97.38308257547186]
多くのNNアプローチは、支配的PDEと物質モデルの両方を暗黙的にモデル化するエンドツーエンドモデルを学ぶ。
PDEの管理はよく知られており、学習よりも明示的に実施されるべきである、と私たちは主張する。
そこで我々は,ネットワークアーキテクチャを利用したニューラル構成則(Neural Constitutive Laws,NCLaw)と呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-04-27T17:42:24Z) - Model-Based Reinforcement Learning with SINDy [0.0]
強化学習(RL)における物理系の非線形力学を規定する新しい手法を提案する。
本手法は,技術モデル学習アルゴリズムの状態よりもはるかに少ないトラジェクトリを用いて,基礎となるダイナミクスを発見することができることを確認した。
論文 参考訳(メタデータ) (2022-08-30T19:03:48Z) - Discrepancy Modeling Framework: Learning missing physics, modeling
systematic residuals, and disambiguating between deterministic and random
effects [4.459306403129608]
現代の力学系では、モデルと測定の相違は量子化の低下につながる。
本稿では,欠落した物理を識別し,モデル-測定ミスマッチを解消するための不一致モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-10T05:37:24Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。