論文の概要: Transformers are Sample Efficient World Models
- arxiv url: http://arxiv.org/abs/2209.00588v1
- Date: Thu, 1 Sep 2022 17:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:22:28.724235
- Title: Transformers are Sample Efficient World Models
- Title(参考訳): トランスフォーマーは効率的な世界モデルです
- Authors: Vincent Micheli, Eloi Alonso, Fran\c{c}ois Fleuret
- Abstract要約: 我々は、離散自己エンコーダと自己回帰変換器からなる世界モデルで学習するデータ効率のエージェントIRISを紹介する。
Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
- 参考スコア(独自算出の注目度): 1.9444242128493845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning agents are notoriously sample inefficient, which
considerably limits their application to real-world problems. Recently, many
model-based methods have been designed to address this issue, with learning in
the imagination of a world model being one of the most prominent approaches.
However, while virtually unlimited interaction with a simulated environment
sounds appealing, the world model has to be accurate over extended periods of
time. Motivated by the success of Transformers in sequence modeling tasks, we
introduce IRIS, a data-efficient agent that learns in a world model composed of
a discrete autoencoder and an autoregressive Transformer. With the equivalent
of only two hours of gameplay in the Atari 100k benchmark, IRIS achieves a mean
human normalized score of 1.046, and outperforms humans on 10 out of 26 games.
Our approach sets a new state of the art for methods without lookahead search,
and even surpasses MuZero. To foster future research on Transformers and world
models for sample-efficient reinforcement learning, we release our codebase at
https://github.com/eloialonso/iris.
- Abstract(参考訳): 深層強化学習エージェントは非効率なサンプルであり、実際の問題への応用をかなり制限している。
近年、この問題を解決するために多くのモデルベース手法が設計されており、世界モデルがもっとも顕著なアプローチの1つであることを想像している。
しかし、シミュレーション環境との事実上無限の相互作用は魅力的だが、世界モデルは長期にわたって正確でなければならない。
シーケンシャルモデリングタスクにおけるトランスフォーマーの成功に触発され、離散オートエンコーダと自己回帰トランスフォーマーからなる世界モデルで学習するデータ効率のエージェントであるIRISを導入した。
Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
提案手法は, 検索を行なわず, MuZero を超越する手法として, 手法の新たな現状を定めている。
サンプル効率強化学習のためのトランスフォーマーと世界モデルに関する今後の研究を促進するため、私たちはhttps://github.com/eloialonso/iris.comでコードベースをリリースします。
関連論文リスト
- On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement
Learning [45.73223325256312]
最新のモデルベースRLアルゴリズムで学習した内部モデルが、新しい明らかに異なるタスクを高速に解くために活用できるかどうかを考察する。
我々は,学習世界のモデルのスケーラブルな事前学習と微調整が可能な,サンプル効率の高いオンラインRLのためのフレームワークであるModel-Based Cross-Task Transfer (XTRA)を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:06Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Smaller World Models for Reinforcement Learning [0.5156484100374059]
ベクトル量子化変分オートエンコーダ(VQ-VAE)に基づく世界モデルのための新しいニューラルネットワークアーキテクチャを提案する。
モデルフリーPPOエージェントは、世界モデルからのシミュレーション体験に基づいて純粋に訓練される。
我々はSimPLeアルゴリズムに匹敵する性能を示したが、我々のモデルははるかに小さい。
論文 参考訳(メタデータ) (2020-10-12T15:02:41Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z) - Mastering Atari with Discrete World Models [61.7688353335468]
本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。
DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
論文 参考訳(メタデータ) (2020-10-05T17:52:14Z) - Model-based actor-critic: GAN (model generator) + DRL (actor-critic) =>
AGI [0.0]
本稿ではアクター批判的(モデルフリー)アーキテクチャに(生成的/予測的)環境モデルを追加することを提案する。
提案するAIモデルは(モデルフリーの)DDPGに似ているため、モデルベースDDPGと呼ばれる。
モデルベースアクター批判におけるDRLとGANは,各タスクを(モデルフリーの)DDPGと同等の性能で解決するために,段階的な目標駆動知性を必要とすることを示した。
論文 参考訳(メタデータ) (2020-04-04T02:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。