Fugu-MT 論文翻訳(概要): Physical Derivatives: Computing policy gradients by physical forward-propagation

論文の概要: Physical Derivatives: Computing policy gradients by physical forward-propagation

arxiv url: http://arxiv.org/abs/2201.05830v1
Date: Sat, 15 Jan 2022 11:27:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-19 18:41:26.247115
Title: Physical Derivatives: Computing policy gradients by physical forward-propagation
Title（参考訳）: 物理デリバティブ:物理フォワードプロパゲーションによる政策勾配の計算
Authors: Arash Mehrjou, Ashkan Soleymani, Stefan Bauer, Bernhard Sch\"olkopf
Abstract要約: 動的モデルなしでよいポリシーを学ぶことは、違法にコストがかかる。本研究では,遷移モデルの代わりにパラメータの摂動に対する軌道の感度を学習する中間層を提案する。これにより、実際のモデルを知ることなく、一連の名目上のポリシーの周りの物理系の局所的な挙動を予測することができる。
参考スコア（独自算出の注目度）: 28.29279610522437
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model-free and model-based reinforcement learning are two ends of a spectrum. Learning a good policy without a dynamic model can be prohibitively expensive. Learning the dynamic model of a system can reduce the cost of learning the policy, but it can also introduce bias if it is not accurate. We propose a middle ground where instead of the transition model, the sensitivity of the trajectories with respect to the perturbation of the parameters is learned. This allows us to predict the local behavior of the physical system around a set of nominal policies without knowing the actual model. We assay our method on a custom-built physical robot in extensive experiments and show the feasibility of the approach in practice. We investigate potential challenges when applying our method to physical systems and propose solutions to each of them.
Abstract（参考訳）: モデルフリーとモデルベース強化学習はスペクトルの2つの端である。動的モデルなしで良いポリシーを学ぶことは、禁止的に高価である。システムの動的モデルを学ぶことは、ポリシーを学ぶコストを削減できるが、正確でなければバイアスをもたらすこともある。本研究では, 遷移モデルの代わりに, パラメータの摂動に対する軌道の感度を学習する中間地盤を提案する。これにより、実際のモデルを知ることなく、名目ポリシーのセットの周りの物理システムの局所的な振る舞いを予測できる。提案手法は、広範囲な実験において、カスタム構築された物理ロボットを用いて評価し、実際的なアプローチの実現可能性を示す。本手法を物理システムに適用する場合の潜在的な課題を調査し,その解決法を提案する。

関連論文リスト

Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文参考訳（メタデータ） (2025-05-23T03:28:25Z)
Differentiable Information Enhanced Model-Based Reinforcement Learning [48.820039382764]
差別化可能な環境は、豊かな差別化可能な情報を提供することで、コントロールポリシーを学習する新たな可能性を秘めている。モデルベース強化学習(MBRL)法は、基礎となる物理力学を回復するために、識別可能な情報のパワーを効果的に活用する可能性を示す。しかし,2つの主要な課題は,1)より高精度な動的予測モデルの構築と,2)政策訓練の安定性の向上である。
論文参考訳（メタデータ） (2025-03-03T04:51:40Z)
ICODE: Modeling Dynamical Systems with Extrinsic Input Information [14.521146920900316]
本稿では,モデルの学習過程に,正確なリアルタイム入力情報を組み込んだEmphInput Concomitant Neural ODE(ICODE)を紹介する。いくつかの代表的実動力学の実験を通して本手法を検証する。この研究は、明示的な外部入力情報で物理的システムを理解するための貴重なニューラルネットワークODEモデルのクラスを提供する。
論文参考訳（メタデータ） (2024-11-21T07:57:59Z)
Learning Low-Dimensional Strain Models of Soft Robots by Looking at the Evolution of Their Shape with Application to Model-Based Control [2.058941610795796]
本稿では,低次元物理モデル学習のための合理化手法を提案する。各種平面ソフトマニピュレータを用いたシミュレーションにより,本手法の有効性を検証した。物理的に互換性のあるモデルを生成する方法のおかげで、学習したモデルはモデルベースの制御ポリシーと簡単に組み合わせることができる。
論文参考訳（メタデータ） (2024-10-31T18:37:22Z)
Learning Physics From Video: Unsupervised Physical Parameter Estimation for Continuous Dynamical Systems [49.11170948406405]
本研究では,単一のビデオから既知の連続制御方程式の物理パラメータを推定する教師なし手法を提案する。 Delfys75は5種類の動的システムのための75本のビデオからなる実世界のデータセットだ。
論文参考訳（メタデータ） (2024-10-02T09:44:54Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文参考訳（メタデータ） (2023-06-07T13:58:45Z)
Learning Neural Constitutive Laws From Motion Observations for Generalizable PDE Dynamics [97.38308257547186]
多くのNNアプローチは、支配的PDEと物質モデルの両方を暗黙的にモデル化するエンドツーエンドモデルを学ぶ。 PDEの管理はよく知られており、学習よりも明示的に実施されるべきである、と私たちは主張する。そこで我々は,ネットワークアーキテクチャを利用したニューラル構成則(Neural Constitutive Laws,NCLaw)と呼ばれる新しいフレームワークを導入する。
論文参考訳（メタデータ） (2023-04-27T17:42:24Z)
Model-Based Reinforcement Learning with SINDy [0.0]
強化学習(RL)における物理系の非線形力学を規定する新しい手法を提案する。本手法は,技術モデル学習アルゴリズムの状態よりもはるかに少ないトラジェクトリを用いて,基礎となるダイナミクスを発見することができることを確認した。
論文参考訳（メタデータ） (2022-08-30T19:03:48Z)
Discrepancy Modeling Framework: Learning missing physics, modeling systematic residuals, and disambiguating between deterministic and random effects [4.459306403129608]
現代の力学系では、モデルと測定の相違は量子化の低下につながる。本稿では,欠落した物理を識別し,モデル-測定ミスマッチを解消するための不一致モデリングフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-10T05:37:24Z)
Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文参考訳（メタデータ） (2021-10-27T04:27:28Z)
Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。 1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文参考訳（メタデータ） (2020-06-25T03:27:59Z)
Guided Uncertainty-Aware Policy Optimization: Combining Learning and Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文参考訳（メタデータ） (2020-05-21T19:47:05Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。