論文の概要: PlaNet of the Bayesians: Reconsidering and Improving Deep Planning
Network by Incorporating Bayesian Inference
- arxiv url: http://arxiv.org/abs/2003.00370v1
- Date: Sun, 1 Mar 2020 00:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 12:39:23.705562
- Title: PlaNet of the Bayesians: Reconsidering and Improving Deep Planning
Network by Incorporating Bayesian Inference
- Title(参考訳): ベイジアン惑星:ベイジアン推論を組み込んだ深層計画網の再考と改善
- Authors: Masashi Okada and Norio Kosaka and Tadahiro Taniguchi
- Abstract要約: 我々は、ベイジアン(PlaNet-Bayes)のPlaNetとも呼ばれるDeep Planning Network(PlaNet)の拡張を提案する。
提案された拡張は、ベイズ推定に基づいてPlaNetを不確実性に認識することである。
連続制御タスクの性能を実験的に比較し,PlaNetと比較して連続的に性能を向上させることができると結論付けた。
- 参考スコア(独自算出の注目度): 12.654871396334668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the present paper, we propose an extension of the Deep Planning Network
(PlaNet), also referred to as PlaNet of the Bayesians (PlaNet-Bayes). There has
been a growing demand in model predictive control (MPC) in partially observable
environments in which complete information is unavailable because of, for
example, lack of expensive sensors. PlaNet is a promising solution to realize
such latent MPC, as it is used to train state-space models via model-based
reinforcement learning (MBRL) and to conduct planning in the latent space.
However, recent state-of-the-art strategies mentioned in MBRR literature, such
as involving uncertainty into training and planning, have not been considered,
significantly suppressing the training performance. The proposed extension is
to make PlaNet uncertainty-aware on the basis of Bayesian inference, in which
both model and action uncertainty are incorporated. Uncertainty in latent
models is represented using a neural network ensemble to approximately infer
model posteriors. The ensemble of optimal action candidates is also employed to
capture multimodal uncertainty in the optimality. The concept of the action
ensemble relies on a general variational inference MPC (VI-MPC) framework and
its instance, probabilistic action ensemble with trajectory sampling (PaETS).
In this paper, we extend VI-MPC and PaETS, which have been originally
introduced in previous literature, to address partially observable cases. We
experimentally compare the performances on continuous control tasks, and
conclude that our method can consistently improve the asymptotic performance
compared with PlaNet.
- Abstract(参考訳): 本稿では,ベイジアン(PlaNet-Bayes)のPlaNetとしても知られるDeep Planning Network(PlaNet)の拡張を提案する。
部分的に観測可能な環境では、例えば高価なセンサーがないために完全な情報が利用できないモデル予測制御(MPC)の需要が高まっている。
PlaNetは、モデルベース強化学習(MBRL)を介して状態空間モデルをトレーニングし、潜伏空間で計画を実行するため、そのような潜伏MPCを実現するための有望なソリューションである。
しかし、近年のmbrr文献では、訓練や計画への不確実性などの技術戦略は考慮されておらず、訓練性能が著しく低下している。
提案した拡張は、モデルとアクションの不確実性の両方を組み込んだベイズ推論に基づいて、PlaNetの不確実性を認識することである。
潜在モデルの不確実性はニューラルネットワークアンサンブルを用いて近似モデル後方に表現される。
最適作用候補のアンサンブルは、最適性の多モード不確実性を捉えるためにも用いられる。
アクションアンサンブルの概念は、一般的な変動推論 MPC (VI-MPC) フレームワークとその例、軌道サンプリング (PaETS) を用いた確率的アクションアンサンブルに依存している。
本稿では,従来文献で紹介されていた VI-MPC と PaETS を拡張し,部分的に観察可能なケースに対処する。
連続制御タスクの性能を実験的に比較し,PlaNetと比較して漸近的性能を継続的に向上させることができると結論付けた。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Amortised Inference in Bayesian Neural Networks [0.0]
Amortized Pseudo-Observation Variational Inference Bayesian Neural Network (APOVI-BNN)を紹介する。
補正された推論は、従来の変分推論によって得られたものと類似または良好な品質であることが示される。
次に、APOVI-BNNをニューラルプロセスファミリーの新たなメンバーと見なす方法について論じる。
論文 参考訳(メタデータ) (2023-09-06T14:02:33Z) - Model-based Offline Policy Optimization with Adversarial Network [0.36868085124383626]
本稿では,新たなモデルベースオフラインポリシー最適化フレームワーク(MOAN)を提案する。
主なアイデアは、敵の学習を使って、より良い一般化を伴う遷移モデルを構築することである。
我々の手法は、広く研究されているオフラインRLベンチマークにおいて、最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-05T11:49:33Z) - Improving Transferability of Adversarial Examples via Bayesian Attacks [84.90830931076901]
モデル入力にベイズ定式化を組み込むことにより,モデル入力とモデルパラメータの共分散を可能にする新しい拡張を導入する。
提案手法は,トランスファーベース攻撃に対する新たな最先端技術を実現し,ImageNetとCIFAR-10の平均成功率をそれぞれ19.14%,2.08%向上させる。
論文 参考訳(メタデータ) (2023-07-21T03:43:07Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Preference Enhanced Social Influence Modeling for Network-Aware Cascade
Prediction [59.221668173521884]
本稿では,ユーザの嗜好モデルを強化することで,カスケードサイズ予測を促進する新しいフレームワークを提案する。
エンド・ツー・エンドの手法により,ユーザの情報拡散プロセスがより適応的で正確になる。
論文 参考訳(メタデータ) (2022-04-18T09:25:06Z) - Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。
本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文 参考訳(メタデータ) (2021-10-08T13:51:34Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Probabilistic electric load forecasting through Bayesian Mixture Density
Networks [70.50488907591463]
確率的負荷予測(PLF)は、スマートエネルギーグリッドの効率的な管理に必要な拡張ツールチェーンの重要なコンポーネントです。
ベイジアン混合密度ネットワークを枠とした新しいPLFアプローチを提案する。
後方分布の信頼性と計算にスケーラブルな推定を行うため,平均場変動推定と深層アンサンブルを統合した。
論文 参考訳(メタデータ) (2020-12-23T16:21:34Z) - Towards Trustworthy Predictions from Deep Neural Networks with Fast
Adversarial Calibration [2.8935588665357077]
本稿では,ドメインシフト後に得られたサンプルに対して,信頼度の高い信頼度を得るための効率的かつ汎用的なモデリング手法を提案する。
本稿では,エントロピー増大損失項と逆キャリブレーション損失項を組み合わせた新しいトレーニング戦略を導入し,この結果が適切に調整され,技術的に信頼できる予測となることを示す。
論文 参考訳(メタデータ) (2020-12-20T13:39:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。