論文の概要: Evaluating model-based planning and planner amortization for continuous
control
- arxiv url: http://arxiv.org/abs/2110.03363v1
- Date: Thu, 7 Oct 2021 12:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:57:25.587531
- Title: Evaluating model-based planning and planner amortization for continuous
control
- Title(参考訳): 連続制御のためのモデルベース計画とプランナー補正の評価
- Authors: Arunkumar Byravan, Leonard Hasenclever, Piotr Trochim, Mehdi Mirza,
Alessandro Davide Ialongo, Yuval Tassa, Jost Tobias Springenberg, Abbas
Abdolmaleki, Nicolas Heess, Josh Merel, Martin Riedmiller
- Abstract要約: 我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
- 参考スコア(独自算出の注目度): 79.49319308600228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a widespread intuition that model-based control methods should be
able to surpass the data efficiency of model-free approaches. In this paper we
attempt to evaluate this intuition on various challenging locomotion tasks. We
take a hybrid approach, combining model predictive control (MPC) with a learned
model and model-free policy learning; the learned policy serves as a proposal
for MPC. We find that well-tuned model-free agents are strong baselines even
for high DoF control problems but MPC with learned proposals and models
(trained on the fly or transferred from related tasks) can significantly
improve performance and data efficiency in hard multi-task/multi-goal settings.
Finally, we show that it is possible to distil a model-based planner into a
policy that amortizes the planning computation without any loss of performance.
Videos of agents performing different tasks can be seen at
https://sites.google.com/view/mbrl-amortization/home.
- Abstract(参考訳): モデルベースの制御方法は、モデルフリーなアプローチのデータ効率を上回ることができるべきだという直観が広く存在する。
本稿では,この直感を様々な難解な移動課題に対して評価する。
我々は、モデル予測制御(MPC)と学習モデルと無モデルポリシー学習を組み合わせたハイブリッドアプローチを取り、学習ポリシーはMPCの提案として機能する。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかったが、学習された提案やモデル(フライで訓練したり、関連するタスクから移行したり)を持つMPCは、ハードマルチタスク/マルチゴール設定における性能とデータ効率を著しく向上させることができる。
最後に,モデルに基づくプランナーを,性能を損なうことなく計画計算を償却するポリシに分割することが可能であることを示す。
異なるタスクを実行するエージェントのビデオはhttps://sites.google.com/view/mbrl-amortization/homeで見ることができる。
関連論文リスト
- MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Model-based Reinforcement Learning with Multi-step Plan Value Estimation [4.158979444110977]
モデルベースRLのマルチステップ動作を置き換えるためのマルチステップ計画を導入する。
新しいモデルベース強化学習アルゴリズムMPPVEは、学習モデルのより良い利用方法を示し、最先端のモデルベースRLアプローチよりも優れたサンプル効率を実現する。
論文 参考訳(メタデータ) (2022-09-12T18:22:11Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Visual Foresight With a Local Dynamics Model [1.370633147306388]
単一ステップ操作プリミティブのための状態遷移関数を効率的に学習するローカルダイナミクスモデル(LDM)を提案する。
LDMとモデルフリーなポリシー学習を組み合わせることで、ワンステップのルックアヘッド計画を用いて複雑な操作タスクを解くことができるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2022-06-29T17:58:14Z) - Temporal Difference Learning for Model Predictive Control [29.217382374051347]
データ駆動モデル予測制御は、モデルフリーメソッドよりも2つの大きな利点がある。
TD-MPCは、状態と画像に基づく連続制御タスクの事前処理よりも、より優れたサンプリング効率と性能を実現する。
論文 参考訳(メタデータ) (2022-03-09T18:58:28Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。