論文の概要: Vector Quantized Models for Planning
- arxiv url: http://arxiv.org/abs/2106.04615v1
- Date: Tue, 8 Jun 2021 18:12:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:33:15.607574
- Title: Vector Quantized Models for Planning
- Title(参考訳): 計画のためのベクトル量子化モデル
- Authors: Sherjil Ozair, Yazhe Li, Ali Razavi, Ioannis Antonoglou, A\"aron van
den Oord, Oriol Vinyals
- Abstract要約: 我々は、部分的に観測可能な環境を扱う新しいアプローチを提案する。
私たちの重要な洞察は、個別のオートエンコーダを使用して、環境におけるアクションの複数の影響を捉えることです。
EmphDeepMind Labは視覚的な大きな観察と部分的な観察が可能な1対1の3D環境である。
- 参考スコア(独自算出の注目度): 31.95311228306322
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent developments in the field of model-based RL have proven successful in
a range of environments, especially ones where planning is essential. However,
such successes have been limited to deterministic fully-observed environments.
We present a new approach that handles stochastic and partially-observable
environments. Our key insight is to use discrete autoencoders to capture the
multiple possible effects of an action in a stochastic environment. We use a
stochastic variant of \emph{Monte Carlo tree search} to plan over both the
agent's actions and the discrete latent variables representing the
environment's response. Our approach significantly outperforms an offline
version of MuZero on a stochastic interpretation of chess where the opponent is
considered part of the environment. We also show that our approach scales to
\emph{DeepMind Lab}, a first-person 3D environment with large visual
observations and partial observability.
- Abstract(参考訳): モデルベースRLの分野での最近の発展は、特に計画が不可欠である様々な環境で成功している。
しかし、そのような成功は決定論的完全観測環境に限定されている。
確率的かつ部分的に観測可能な環境を扱う新しいアプローチを提案する。
我々の重要な洞察は、確率的環境におけるアクションの複数の影響を捉えるために離散オートエンコーダを使用することである。
我々は、エージェントの動作と環境応答を表す離散潜在変数の両方を計画するために、'emph{Monte Carlo tree search} の確率的変種を用いる。
本手法は, 対戦相手が環境の一部と見なされるチェスの確率論的解釈において, オフライン版の MuZero を著しく上回っている。
また,我々のアプローチは,一対一の3次元環境である \emph{deepmind lab} にスケールすることを示した。
関連論文リスト
- R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - Learning Robust Dynamics through Variational Sparse Gating [18.476155786474358]
多くのオブジェクトを持つ環境では、少数のオブジェクトが同時に動いたり相互作用したりしているのが普通です。
本稿では,このスパース相互作用の帰納バイアスを,画素から学習した世界モデルの潜在ダイナミクスに統合する。
論文 参考訳(メタデータ) (2022-10-21T02:56:51Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - A Probabilistic Framework for Dynamic Object Recognition in 3D
Environment With A Novel Continuous Ground Estimation Method [0.0]
3次元環境における動的物体認識のための確率的フレームワークを開発し提案する。
ガウス過程回帰(GPR)に基づく新しい手法が開発され、異なる都市シナリオにおける接地点を検出する。
論文 参考訳(メタデータ) (2022-01-27T16:07:10Z) - MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory
Prediction [28.438787700968703]
条件付きMUSEは、現在の最先端技術と比較して、多様かつ同時に正確な予測を提供する。
我々は、新しい合成データセットであるPFSDと同様に、nuScenesとSDDベンチマークに関する包括的な実験を通してこれらのアサーションを実証する。
論文 参考訳(メタデータ) (2022-01-18T18:40:03Z) - Oops I Took A Gradient: Scalable Sampling for Discrete Distributions [53.3142984019796]
このアプローチは、多くの困難な設定において、ジェネリックサンプリングよりも優れていることを示す。
また,高次元離散データを用いた深部エネルギーモデルトレーニングのための改良型サンプリング器についても実演した。
論文 参考訳(メタデータ) (2021-02-08T20:08:50Z) - Evidential Sparsification of Multimodal Latent Spaces in Conditional
Variational Autoencoders [63.46738617561255]
訓練された条件付き変分オートエンコーダの離散潜時空間をスパース化する問題を考察する。
顕在的理論を用いて、特定の入力条件から直接証拠を受け取る潜在クラスを特定し、そうでないクラスをフィルタリングする。
画像生成や人間の行動予測などの多様なタスクの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-10-19T01:27:21Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z) - Dynamic Value Estimation for Single-Task Multi-Scene Reinforcement
Learning [22.889059874754242]
同じタスクから複数のレベル/シーン/条件を持つ環境において、深層強化学習エージェントを訓練することは、多くのアプリケーションにとって欠かせないものとなっている。
本研究では,複数のMDP環境に対する動的値推定(DVE)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。