論文の概要: Multi-Game Decision Transformers
- arxiv url: http://arxiv.org/abs/2205.15241v1
- Date: Mon, 30 May 2022 16:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 15:17:15.815959
- Title: Multi-Game Decision Transformers
- Title(参考訳): マルチゲーム決定トランスフォーマ
- Authors: Kuang-Huei Lee, Ofir Nachum, Mengjiao Yang, Lisa Lee, Daniel Freeman,
Winnie Xu, Sergio Guadarrama, Ian Fischer, Eric Jang, Henryk Michalewski,
Igor Mordatch
- Abstract要約: そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
- 参考スコア(独自算出の注目度): 49.257185338595434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A longstanding goal of the field of AI is a strategy for compiling diverse
experience into a highly capable, generalist agent. In the subfields of vision
and language, this was largely achieved by scaling up transformer-based models
and training them on large, diverse datasets. Motivated by this progress, we
investigate whether the same strategy can be used to produce generalist
reinforcement learning agents. Specifically, we show that a single
transformer-based model - with a single set of weights - trained purely offline
can play a suite of up to 46 Atari games simultaneously at close-to-human
performance. When trained and evaluated appropriately, we find that the same
trends observed in language and vision hold, including scaling of performance
with model size and rapid adaptation to new games via fine-tuning. We compare
several approaches in this multi-game setting, such as online and offline RL
methods and behavioral cloning, and find that our Multi-Game Decision
Transformer models offer the best scalability and performance. We release the
pre-trained models and code to encourage further research in this direction.
Additional information, videos and code can be seen at:
sites.google.com/view/multi-game-transformers
- Abstract(参考訳): aiの分野における長年の目標は、多様な経験を高度に有能なジェネラリストエージェントにまとめる戦略である。
ビジョンと言語のサブフィールドでは、これはトランスフォーマーベースのモデルをスケールアップし、大規模で多様なデータセットでトレーニングすることで実現された。
本研究は,本手法が一般強化学習エージェントの創出に有効かどうかを考察する。
具体的には、単一のトランスフォーマーベースのモデル(一組の重みを持つ)が、純粋にオフラインでトレーニングされ、人間に近いパフォーマンスで最大46個のAtariゲームを同時にプレイ可能であることを示す。
トレーニングと評価を適切に行うと、モデルサイズによるパフォーマンスのスケーリングや、ファインチューニングによる新しいゲームへの迅速な適応など、言語やビジョンホールドで見られるのと同じ傾向が分かる。
オンラインおよびオフラインのRL手法や行動クローンなど,このマルチゲーム設定におけるいくつかのアプローチを比較し,マルチゲーム決定変換モデルが最高のスケーラビリティと性能を提供することを確認した。
トレーニング済みのモデルとコードをリリースし、この方向のさらなる研究を奨励します。
追加情報、ビデオ、コードはsites.google.com/view/multi-game-transformersで見ることができる。
関連論文リスト
- Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Scaling Laws for Imitation Learning in Single-Agent Games [29.941613597833133]
我々は,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境に類似した改善がもたらされるかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
IL損失と平均戻り値は計算予算とスムーズに一致し,相関関係が強く,計算最適ILエージェントの訓練には電力法則が適用されることがわかった。
論文 参考訳(メタデータ) (2023-07-18T16:43:03Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Probing Transfer in Deep Reinforcement Learning without Task Engineering [26.637254541454773]
深部強化学習エージェントのための異種変換ベンチマークとして,Atari 2600コンソールがサポートするオリジナルゲームキュリキュラの評価を行った。
ゲームデザイナーは、Space Invaders、Breakout、Freewayといったゲームの基本バージョンにいくつかの個別の修正を加えてキュリキュラを作成した。
基本ゲームからそれらのバリエーションへのゼロショット転送は可能であるが、性能のばらつきは要因間の相互作用によって大きく説明される。
論文 参考訳(メタデータ) (2022-10-22T13:40:12Z) - Leveraging Transformers for StarCraft Macromanagement Prediction [1.5469452301122177]
本稿では,StarCraft IIのマクロ管理タスクであるグローバル状態とビルド順序予測の2つのタスクに対して,トランスフォーマーベースのニューラルアーキテクチャを導入する。
電流バイアスに悩まされるリカレントニューラルネットワークとは異なり、トランスフォーマーは非常に長い時間をかけてパターンを捉えることができる。
変換器の重要な利点の一つは、それらの一般化能力であり、我々は、転送学習環境で使用する場合、我々のモデルがさらに精度良く達成できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T15:12:21Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。