論文の概要: Transformers are Sample Efficient World Models
- arxiv url: http://arxiv.org/abs/2209.00588v1
- Date: Thu, 1 Sep 2022 17:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:22:28.724235
- Title: Transformers are Sample Efficient World Models
- Title(参考訳): トランスフォーマーは効率的な世界モデルです
- Authors: Vincent Micheli, Eloi Alonso, Fran\c{c}ois Fleuret
- Abstract要約: 我々は、離散自己エンコーダと自己回帰変換器からなる世界モデルで学習するデータ効率のエージェントIRISを紹介する。
Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
- 参考スコア(独自算出の注目度): 1.9444242128493845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning agents are notoriously sample inefficient, which
considerably limits their application to real-world problems. Recently, many
model-based methods have been designed to address this issue, with learning in
the imagination of a world model being one of the most prominent approaches.
However, while virtually unlimited interaction with a simulated environment
sounds appealing, the world model has to be accurate over extended periods of
time. Motivated by the success of Transformers in sequence modeling tasks, we
introduce IRIS, a data-efficient agent that learns in a world model composed of
a discrete autoencoder and an autoregressive Transformer. With the equivalent
of only two hours of gameplay in the Atari 100k benchmark, IRIS achieves a mean
human normalized score of 1.046, and outperforms humans on 10 out of 26 games.
Our approach sets a new state of the art for methods without lookahead search,
and even surpasses MuZero. To foster future research on Transformers and world
models for sample-efficient reinforcement learning, we release our codebase at
https://github.com/eloialonso/iris.
- Abstract(参考訳): 深層強化学習エージェントは非効率なサンプルであり、実際の問題への応用をかなり制限している。
近年、この問題を解決するために多くのモデルベース手法が設計されており、世界モデルがもっとも顕著なアプローチの1つであることを想像している。
しかし、シミュレーション環境との事実上無限の相互作用は魅力的だが、世界モデルは長期にわたって正確でなければならない。
シーケンシャルモデリングタスクにおけるトランスフォーマーの成功に触発され、離散オートエンコーダと自己回帰トランスフォーマーからなる世界モデルで学習するデータ効率のエージェントであるIRISを導入した。
Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
提案手法は, 検索を行なわず, MuZero を超越する手法として, 手法の新たな現状を定めている。
サンプル効率強化学習のためのトランスフォーマーと世界モデルに関する今後の研究を促進するため、私たちはhttps://github.com/eloialonso/iris.comでコードベースをリリースします。
関連論文リスト
- Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。
長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。
このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文 参考訳(メタデータ) (2024-10-11T15:10:40Z) - Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Efficient World Models with Context-Aware Tokenization [22.84676306124071]
$Delta$-IRISは、時間ステップ間のデルタをエンコードする離散オートエンコーダで構成されるワールドモデルアーキテクチャを備えた新しいエージェントである。
Crafterのベンチマークでは、$Delta$-IRISは、複数のフレーム予算で新しい最先端の技術を設定します。
論文 参考訳(メタデータ) (2024-06-27T16:54:12Z) - Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Learning to Play Atari in a World of Tokens [4.880437151994464]
変換器に基づく学習(DART)のための離散抽象表現を導入する。
本研究では,自己回帰的世界モデリングのためのトランスフォーマー・デコーダと,世界モデルの離散表現におけるタスク関連キューへの参加による学習行動のためのトランスフォーマー・デコーダを組み込んだ。
DARTは、Atari 100kサンプル効率ベンチマークでルックアヘッド検索を使用しない従来の最先端の手法よりも、平均的な人間正規化スコアが0.790で、26試合中9試合で人間に勝っている。
論文 参考訳(メタデータ) (2024-06-03T14:25:29Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformer-based World Models Are Happy With 100k Interactions [0.4588028371034407]
サンプル効率の良い世界モデルを構築するために,実世界のエピソードにトランスフォーマーを自己回帰的に適用する。
トランスにより、圧縮されたリカレント状態を通して見るのではなく、我々の世界モデルが以前の状態に直接アクセスすることができる。
Transformer-XLアーキテクチャを利用することで、計算効率を保ちながら長期的な依存関係を学習することができる。
論文 参考訳(メタデータ) (2023-03-13T13:43:59Z) - Mastering Atari with Discrete World Models [61.7688353335468]
本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。
DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
論文 参考訳(メタデータ) (2020-10-05T17:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。