論文の概要: Transformer-based World Models Are Happy With 100k Interactions
- arxiv url: http://arxiv.org/abs/2303.07109v1
- Date: Mon, 13 Mar 2023 13:43:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 14:50:09.287772
- Title: Transformer-based World Models Are Happy With 100k Interactions
- Title(参考訳): トランスフォーマーベースの世界モデルは100万のインタラクションに満足
- Authors: Jan Robine, Marc H\"oftmann, Tobias Uelwer, Stefan Harmeling
- Abstract要約: サンプル効率の良い世界モデルを構築するために,実世界のエピソードにトランスフォーマーを自己回帰的に適用する。
トランスにより、圧縮されたリカレント状態を通して見るのではなく、我々の世界モデルが以前の状態に直接アクセスすることができる。
Transformer-XLアーキテクチャを利用することで、計算効率を保ちながら長期的な依存関係を学習することができる。
- 参考スコア(独自算出の注目度): 0.4588028371034407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have been successful in many reinforcement learning
settings. However, compared to human learners they are overly data hungry. To
build a sample-efficient world model, we apply a transformer to real-world
episodes in an autoregressive manner: not only the compact latent states and
the taken actions but also the experienced or predicted rewards are fed into
the transformer, so that it can attend flexibly to all three modalities at
different time steps. The transformer allows our world model to access previous
states directly, instead of viewing them through a compressed recurrent state.
By utilizing the Transformer-XL architecture, it is able to learn long-term
dependencies while staying computationally efficient. Our transformer-based
world model (TWM) generates meaningful, new experience, which is used to train
a policy that outperforms previous model-free and model-based reinforcement
learning algorithms on the Atari 100k benchmark.
- Abstract(参考訳): ディープニューラルネットワークは多くの強化学習環境で成功している。
しかし、人間の学習者と比べれば、データ不足が極端に多い。
サンプル効率のよい世界モデルを構築するために, 実世界のエピソードに対して, コンパクトな潜伏状態と取付動作だけでなく, 経験や予測された報酬をトランスフォーマーに供給し, 異なる時間ステップで3つのモードに柔軟に対応できるように, トランスフォーマを自己回帰的に適用する。
トランスフォーマは、圧縮されたリカレント状態ではなく、世界モデルが以前の状態に直接アクセスできるようにします。
Transformer-XLアーキテクチャを利用することで、計算効率を保ちながら長期的な依存関係を学習することができる。
我々のトランスフォーマーベースの世界モデル(TWM)は、Atari 100kベンチマークにおいて、従来のモデルフリーおよびモデルベース強化学習アルゴリズムより優れているポリシーのトレーニングに使用される有意義で新しい体験を生成する。
関連論文リスト
- Transformer Explainer: Interactive Learning of Text-Generative Models [65.91049787390692]
Transformer Explainerは、GPT-2モデルを通じてTransformerについて学ぶために非専門家向けに設計されたインタラクティブな可視化ツールである。
ライブのGPT-2インスタンスをユーザのブラウザでローカルに実行し、ユーザが自身の入力を実験し、Transformerの内部コンポーネントとパラメータの協調動作をリアルタイムで観察することを可能にする。
論文 参考訳(メタデータ) (2024-08-08T17:49:07Z) - Learning to Play Atari in a World of Tokens [4.880437151994464]
変換器に基づく学習(DART)のための離散抽象表現を導入する。
本研究では,自己回帰的世界モデリングのためのトランスフォーマー・デコーダと,世界モデルの離散表現におけるタスク関連キューへの参加による学習行動のためのトランスフォーマー・デコーダを組み込んだ。
DARTは、Atari 100kサンプル効率ベンチマークでルックアヘッド検索を使用しない従来の最先端の手法よりも、平均的な人間正規化スコアが0.790で、26試合中9試合で人間に勝っている。
論文 参考訳(メタデータ) (2024-06-03T14:25:29Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Transformers are Sample Efficient World Models [1.9444242128493845]
我々は、離散自己エンコーダと自己回帰変換器からなる世界モデルで学習するデータ効率のエージェントIRISを紹介する。
Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
論文 参考訳(メタデータ) (2022-09-01T17:03:07Z) - Shifted Chunk Transformer for Spatio-Temporal Representational Learning [24.361059477031162]
我々は、純粋な自己注意ブロックを持つシフトチャンク変換器を構築する。
このトランスフォーマーは、小さなパッチからグローバルなビデオクリップまで、階層的な時間的特徴を学習することができる。
Kinetics, Kinetics-600, UCF101, HMDB51の最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-08-26T04:34:33Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。