論文の概要: Planning with Diffusion for Flexible Behavior Synthesis
- arxiv url: http://arxiv.org/abs/2205.09991v1
- Date: Fri, 20 May 2022 07:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 13:35:24.371354
- Title: Planning with Diffusion for Flexible Behavior Synthesis
- Title(参考訳): フレキシブルな行動合成のための拡散による計画
- Authors: Michael Janner, Yilun Du, Joshua B. Tenenbaum, Sergey Levine
- Abstract要約: 我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
- 参考スコア(独自算出の注目度): 125.24438991142573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning methods often use learning only for the
purpose of estimating an approximate dynamics model, offloading the rest of the
decision-making work to classical trajectory optimizers. While conceptually
simple, this combination has a number of empirical shortcomings, suggesting
that learned models may not be well-suited to standard trajectory optimization.
In this paper, we consider what it would look like to fold as much of the
trajectory optimization pipeline as possible into the modeling problem, such
that sampling from the model and planning with it become nearly identical. The
core of our technical approach lies in a diffusion probabilistic model that
plans by iteratively denoising trajectories. We show how classifier-guided
sampling and image inpainting can be reinterpreted as coherent planning
strategies, explore the unusual and useful properties of diffusion-based
planning methods, and demonstrate the effectiveness of our framework in control
settings that emphasize long-horizon decision-making and test-time flexibility.
- Abstract(参考訳): モデルベース強化学習法は、近似ダイナミクスモデルの推定のためにのみ学習を使用し、残りの意思決定作業を古典的な軌道最適化器にオフロードする。
概念的には単純であるが、この組み合わせには多くの経験的欠点があり、学習されたモデルは標準軌道最適化に適していない可能性がある。
本稿では,モデルからのサンプリングと計画がほぼ同一になるようなモデリング問題に対して,可能な限り軌道最適化パイプラインを折り畳むことがどのようなものになるかを検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
分類器誘導型サンプリングと画像インパインティングをコヒーレントな計画戦略として再解釈し,拡散型計画手法の異常かつ有用性を検証し,長期的意思決定とテスト時間の柔軟性を重視した制御設定におけるフレームワークの有効性を示す。
関連論文リスト
- Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Deep Generative Models for Decision-Making and Control [4.238809918521607]
この論文の2つの目的は、これらの欠点の理由を研究し、未解決問題に対する解決策を提案することである。
本稿では、ビームサーチを含む現代の生成モデリングツールボックスからの推論手法を、強化学習問題のための実行可能な計画戦略として再解釈する方法について述べる。
論文 参考訳(メタデータ) (2023-06-15T01:54:30Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Predictive Control Using Learned State Space Models via Rolling Horizon
Evolution [2.1016374925364616]
本稿では、進化的アルゴリズム計画手法と、ディープラーニングと変分推論を用いて学習したモデルを組み合わせたテーマについて検討する。
視覚ナビゲーションタスクのセットにおいて,オンラインプランニングを確実に行うエージェントを用いて,このアプローチを実証する。
論文 参考訳(メタデータ) (2021-06-25T23:23:42Z) - Experimental Design for Overparameterized Learning with Application to
Single Shot Deep Active Learning [5.141687309207561]
現代の機械学習モデルは、大量のラベル付きデータに基づいて訓練されている。
大量のラベル付きデータへのアクセスは、しばしば制限またはコストがかかる。
トレーニングセットをキュレートするための新しい設計戦略を提案する。
論文 参考訳(メタデータ) (2020-09-27T11:27:49Z) - Prediction-Centric Learning of Independent Cascade Dynamics from Partial
Observations [13.680949377743392]
本稿では,このモデルから生成された予測が正確であるような拡散モデルの学習の問題に対処する。
本稿では,スケーラブルな動的メッセージパッシング手法に基づく計算効率のよいアルゴリズムを提案する。
学習モデルからの抽出可能な推論は,元のモデルと比較して限界確率の予測精度がよいことを示す。
論文 参考訳(メタデータ) (2020-07-13T17:58:21Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。