Fugu-MT 論文翻訳(概要): Smaller World Models for Reinforcement Learning

論文の概要: Smaller World Models for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2010.05767v2
Date: Tue, 2 Mar 2021 12:02:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-08 05:31:04.080592
Title: Smaller World Models for Reinforcement Learning
Title（参考訳）: 強化学習のための小型世界モデル
Authors: Jan Robine, Tobias Uelwer, Stefan Harmeling
Abstract要約: ベクトル量子化変分オートエンコーダ(VQ-VAE)に基づく世界モデルのための新しいニューラルネットワークアーキテクチャを提案する。モデルフリーPPOエージェントは、世界モデルからのシミュレーション体験に基づいて純粋に訓練される。我々はSimPLeアルゴリズムに匹敵する性能を示したが、我々のモデルははるかに小さい。
参考スコア（独自算出の注目度）: 0.5156484100374059
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sample efficiency remains a fundamental issue of reinforcement learning. Model-based algorithms try to make better use of data by simulating the environment with a model. We propose a new neural network architecture for world models based on a vector quantized-variational autoencoder (VQ-VAE) to encode observations and a convolutional LSTM to predict the next embedding indices. A model-free PPO agent is trained purely on simulated experience from the world model. We adopt the setup introduced by Kaiser et al. (2020), which only allows 100K interactions with the real environment. We apply our method on 36 Atari environments and show that we reach comparable performance to their SimPLe algorithm, while our model is significantly smaller.
Abstract（参考訳）: サンプル効率は強化学習の基本的な問題である。モデルベースのアルゴリズムは、モデルで環境をシミュレートすることで、データのより良い利用を試みる。本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)を用いた世界モデルのための新しいニューラルネットワークアーキテクチャを提案する。モデルフリーPPOエージェントは、世界モデルからのシミュレーション体験に基づいて純粋に訓練される。我々はKaiserらによって導入されたセットアップ(2020)を採用し、実際の環境と100Kのインタラクションしかできない。本手法を36 atari 環境に適用し,その単純なアルゴリズムに匹敵する性能が得られた。

関連論文リスト

Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。 TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文参考訳（メタデータ） (2025-03-06T13:18:37Z)
Model-based Policy Optimization using Symbolic World Model [46.42871544295734]
ロボット工学における学習に基づく制御手法の適用は、大きな課題を呈している。 1つは、モデルなし強化学習アルゴリズムがサンプル効率の低い観測データを使用することである。シンボリック回帰によって生成されるシンボリック表現による遷移ダイナミクスの近似を提案する。
論文参考訳（メタデータ） (2024-07-18T13:49:21Z)
STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。 Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文参考訳（メタデータ） (2023-10-14T16:42:02Z)
Fitting a Directional Microstructure Model to Diffusion-Relaxation MRI Data with Self-Supervised Machine Learning [2.8167227950959206]
教師付き学習の魅力的な代替手段として、自己教師型機械学習が登場している。本稿では,指向性マイクロ構造モデルに適用可能な自己教師型機械学習モデルを実証する。提案手法は, パラメータ推定と計算時間において, 通常の非線形最小二乗整合と比較して明らかに改善されている。
論文参考訳（メタデータ） (2022-10-05T15:51:39Z)
Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文参考訳（メタデータ） (2022-09-07T15:15:12Z)
Real-time Neural-MPC: Deep Learning Model Predictive Control for Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文参考訳（メタデータ） (2022-03-15T09:38:15Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文参考訳（メタデータ） (2021-04-11T12:14:04Z)
Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-16T15:10:28Z)
Maximum Entropy Model Rollouts: Fast Model Based Policy Optimization without Compounding Errors [10.906666680425754]
我々は、最大エントロピーモデルロールアウト(MEMR)と呼ばれるダイナスタイルモデルに基づく強化学習アルゴリズムを提案する。複雑なエラーをなくすために、我々はモデルを使って単一ステップのロールアウトを生成する。
論文参考訳（メタデータ） (2020-06-08T21:38:15Z)
Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文参考訳（メタデータ） (2019-10-12T22:07:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。