Fugu-MT 論文翻訳(概要): Control as Hybrid Inference

論文の概要: Control as Hybrid Inference

arxiv url: http://arxiv.org/abs/2007.05838v1
Date: Sat, 11 Jul 2020 19:44:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-11 12:51:01.369123
Title: Control as Hybrid Inference
Title（参考訳）: ハイブリッド推論としての制御
Authors: Alexander Tschantz, Beren Millidge, Anil K. Seth, Christopher L. Buckley
Abstract要約: 本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
参考スコア（独自算出の注目度）: 62.997667081978825
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The field of reinforcement learning can be split into model-based and model-free methods. Here, we unify these approaches by casting model-free policy optimisation as amortised variational inference, and model-based planning as iterative variational inference, within a `control as hybrid inference' (CHI) framework. We present an implementation of CHI which naturally mediates the balance between iterative and amortised inference. Using a didactic experiment, we demonstrate that the proposed algorithm operates in a model-based manner at the onset of learning, before converging to a model-free algorithm once sufficient data have been collected. We verify the scalability of our algorithm on a continuous control benchmark, demonstrating that it outperforms strong model-free and model-based baselines. CHI thus provides a principled framework for harnessing the sample efficiency of model-based planning while retaining the asymptotic performance of model-free policy optimisation.
Abstract（参考訳）: 強化学習の分野はモデルベースとモデルフリーに分けることができる。本稿では,モデルフリー政策最適化を償却された変分推論として,モデルベース計画を反復的変分推論として,'ハイブリッド推論としての制御' (CHI) フレームワーク内で,これらアプローチを統一する。本稿では,反復推論と償却推論のバランスを自然に仲介するchiの実装を提案する。ディダクティックな実験を用いて,本アルゴリズムが学習開始時にモデルベースで動作し,十分なデータが収集された後にモデルフリーのアルゴリズムに収束することを示す。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。 CHIは、モデルフリー政策最適化の漸近的性能を維持しつつ、モデルベース計画のサンプル効率を活用するための原則化されたフレームワークを提供する。

関連論文リスト

Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文参考訳（メタデータ） (2024-11-02T07:06:53Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文参考訳（メタデータ） (2022-05-20T07:02:03Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-10-19T14:19:42Z)
Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文参考訳（メタデータ） (2020-06-09T18:30:15Z)
Maximum Entropy Model Rollouts: Fast Model Based Policy Optimization without Compounding Errors [10.906666680425754]
我々は、最大エントロピーモデルロールアウト(MEMR)と呼ばれるダイナスタイルモデルに基づく強化学習アルゴリズムを提案する。複雑なエラーをなくすために、我々はモデルを使って単一ステップのロールアウトを生成する。
論文参考訳（メタデータ） (2020-06-08T21:38:15Z)
Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文参考訳（メタデータ） (2020-05-16T19:18:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。