論文の概要: Deep Generative Models for Decision-Making and Control
- arxiv url: http://arxiv.org/abs/2306.08810v2
- Date: Sat, 8 Jul 2023 05:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 18:59:43.951673
- Title: Deep Generative Models for Decision-Making and Control
- Title(参考訳): 意思決定と制御のための深層生成モデル
- Authors: Michael Janner
- Abstract要約: この論文の2つの目的は、これらの欠点の理由を研究し、未解決問題に対する解決策を提案することである。
本稿では、ビームサーチを含む現代の生成モデリングツールボックスからの推論手法を、強化学習問題のための実行可能な計画戦略として再解釈する方法について述べる。
- 参考スコア(独自算出の注目度): 4.238809918521607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep model-based reinforcement learning methods offer a conceptually simple
approach to the decision-making and control problem: use learning for the
purpose of estimating an approximate dynamics model, and offload the rest of
the work to classical trajectory optimization. However, this combination has a
number of empirical shortcomings, limiting the usefulness of model-based
methods in practice. The dual purpose of this thesis is to study the reasons
for these shortcomings and to propose solutions for the uncovered problems.
Along the way, we highlight how inference techniques from the contemporary
generative modeling toolbox, including beam search, classifier-guided sampling,
and image inpainting, can be reinterpreted as viable planning strategies for
reinforcement learning problems.
- Abstract(参考訳): 深層モデルに基づく強化学習法は、意思決定と制御問題に対する概念的に単純なアプローチを提供する: 近似ダイナミクスモデルの推定のために学習を使い、残りの作業を古典的な軌道最適化にオフロードする。
しかし、この組み合わせには多くの経験的欠点があり、実際にモデルベース手法の有用性を制限している。
この論文の2つの目的は、これらの欠点の理由を研究し、未解決問題に対する解決策を提案することである。
その過程で,ビーム探索,分類器誘導サンプリング,画像インパインティングなど,現代生成型モデリングツールボックスからの推論手法を,強化学習問題に対する有効な計画戦略として再解釈できることを強調する。
関連論文リスト
- Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Class-Incremental Mixture of Gaussians for Deep Continual Learning [15.49323098362628]
本稿では,ガウスモデルの混合を連続学習フレームワークに組み込むことを提案する。
固定抽出器を用いたメモリフリーシナリオにおいて,本モデルが効果的に学習可能であることを示す。
論文 参考訳(メタデータ) (2023-07-09T04:33:19Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Model-Based Deep Learning: On the Intersection of Deep Learning and
Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。
数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。
モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文 参考訳(メタデータ) (2022-05-05T13:40:08Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - A Perspective on Machine Learning Methods in Turbulence Modelling [0.0]
本研究は,データ駆動型乱流閉鎖モデルの研究の現状を概観する。
トレーニングデータ、モデル、基礎となる物理、離散化の一貫性は、ML強化モデリング戦略の成功のために考慮すべき重要な問題である、と強調する。
論文 参考訳(メタデータ) (2020-10-23T08:19:30Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Deep Model-Based Reinforcement Learning for High-Dimensional Problems, a
Survey [1.2031796234206134]
モデルに基づく強化学習は、環境サンプルの必要性を減らすために、環境力学の明示的なモデルを生成する。
深層モデルに基づく手法の課題は、低いサンプルの複雑さを維持しながら高い予測力を達成することである。
本稿では, 与えられた遷移を明示的に計画すること, 学習した遷移を明示的に計画すること, 計画と遷移の両方をエンドツーエンドで学習することの3つのアプローチに基づく分類法を提案する。
論文 参考訳(メタデータ) (2020-08-11T08:49:04Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。