論文の概要: Differentiable Information Enhanced Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.01178v1
- Date: Mon, 03 Mar 2025 04:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:14:20.705289
- Title: Differentiable Information Enhanced Model-Based Reinforcement Learning
- Title(参考訳): モデルに基づく強化強化学習の微分情報化
- Authors: Xiaoyuan Zhang, Xinyan Cai, Bo Liu, Weidong Huang, Song-Chun Zhu, Siyuan Qi, Yaodong Yang,
- Abstract要約: 差別化可能な環境は、豊かな差別化可能な情報を提供することで、コントロールポリシーを学習する新たな可能性を秘めている。
モデルベース強化学習(MBRL)法は、基礎となる物理力学を回復するために、識別可能な情報のパワーを効果的に活用する可能性を示す。
しかし,2つの主要な課題は,1)より高精度な動的予測モデルの構築と,2)政策訓練の安定性の向上である。
- 参考スコア(独自算出の注目度): 48.820039382764
- License:
- Abstract: Differentiable environments have heralded new possibilities for learning control policies by offering rich differentiable information that facilitates gradient-based methods. In comparison to prevailing model-free reinforcement learning approaches, model-based reinforcement learning (MBRL) methods exhibit the potential to effectively harness the power of differentiable information for recovering the underlying physical dynamics. However, this presents two primary challenges: effectively utilizing differentiable information to 1) construct models with more accurate dynamic prediction and 2) enhance the stability of policy training. In this paper, we propose a Differentiable Information Enhanced MBRL method, MB-MIX, to address both challenges. Firstly, we adopt a Sobolev model training approach that penalizes incorrect model gradient outputs, enhancing prediction accuracy and yielding more precise models that faithfully capture system dynamics. Secondly, we introduce mixing lengths of truncated learning windows to reduce the variance in policy gradient estimation, resulting in improved stability during policy learning. To validate the effectiveness of our approach in differentiable environments, we provide theoretical analysis and empirical results. Notably, our approach outperforms previous model-based and model-free methods, in multiple challenging tasks involving controllable rigid robots such as humanoid robots' motion control and deformable object manipulation.
- Abstract(参考訳): 微分可能な環境は、勾配に基づく手法を促進するリッチな微分可能な情報を提供することで、制御ポリシーを学習する新たな可能性を秘めている。
モデルベース強化学習法 (MBRL) は, モデルフリー強化学習法と比較して, 基礎となる物理力学を回復するために, 微分情報の有効性を効果的に活用する可能性を示す。
しかし、これは2つの主要な課題を提示する: 識別可能な情報を効果的に活用する。
1)より正確な動的予測と構成モデル
2)政策訓練の安定性を高める。
本稿では,両課題に対処する識別可能情報拡張MBRL手法MB-MIXを提案する。
まず,不正確なモデル勾配の出力をペナライズし,予測精度を高め,システムダイナミクスを忠実に捉えたより正確なモデルを得るソボレフモデルトレーニング手法を採用する。
第2に,乱れた学習ウィンドウの混合長を導入し,政策勾配推定のばらつきを低減し,政策学習時の安定性を向上させる。
異なる環境におけるアプローチの有効性を検証するため,理論的解析と実験結果を提供する。
特に,人間型ロボットの動作制御や変形可能な物体操作など,制御可能な剛性ロボットを含む複数の課題において,従来のモデルベースおよびモデルフリー手法よりも優れていた。
関連論文リスト
- Learning Low-Dimensional Strain Models of Soft Robots by Looking at the Evolution of Their Shape with Application to Model-Based Control [2.058941610795796]
本稿では,低次元物理モデル学習のための合理化手法を提案する。
各種平面ソフトマニピュレータを用いたシミュレーションにより,本手法の有効性を検証した。
物理的に互換性のあるモデルを生成する方法のおかげで、学習したモデルはモデルベースの制御ポリシーと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2024-10-31T18:37:22Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Decision-Focused Model-based Reinforcement Learning for Reward Transfer [27.899494428456048]
本稿では,報酬関数の変化に頑健でありながら高いリターンを達成する遷移モデルを学習する,新しいロバストな決定中心(RDF)アルゴリズムを提案する。
我々は、様々なシミュレーターと実際の患者データに基づいて、RDFがパーソナライズされたポリシーを計画するのに使えるシンプルで効果的なモデルを学ぶことができるという理論的および実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-04-06T20:47:09Z) - DST: Dynamic Substitute Training for Data-free Black-box Attack [79.61601742693713]
そこで本研究では,対象モデルからより高速に学習するための代用モデルの促進を目的とした,新しい動的代用トレーニング攻撃手法を提案する。
タスク駆動型グラフに基づく構造情報学習の制約を導入し、生成したトレーニングデータの質を向上させる。
論文 参考訳(メタデータ) (2022-04-03T02:29:11Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Improving Robot Dual-System Motor Learning with Intrinsically Motivated
Meta-Control and Latent-Space Experience Imagination [17.356402088852423]
本稿では,メタコントローラがモデルベースとモデルフリーの判断をオンラインに調停する,新しいデュアルシステムモーター学習手法を提案する。
シミュレーションと実世界における視覚に基づくロボットグリップ学習におけるベースラインと最先端の手法に対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2020-04-19T12:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。