論文の概要: Human-level Atari 200x faster
- arxiv url: http://arxiv.org/abs/2209.07550v1
- Date: Thu, 15 Sep 2022 18:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 13:00:19.092666
- Title: Human-level Atari 200x faster
- Title(参考訳): 人間レベルのAtari 200倍高速
- Authors: Steven Kapturowski, V\'ictor Campos, Ray Jiang, Nemanja Raki\'cevi\'c,
Hado van Hasselt, Charles Blundell, Adri\`a Puigdom\`enech Badia
- Abstract要約: Agent57は57の全てのゲームで人為的なベンチマークを超えた最初のエージェントとなったが、これはデータ効率の悪さの犠牲となった。
我々は、人間のベースラインを上回る200倍のエクスペリエンスを実現するために、多種多様な戦略を用いています。
また,Muesli や MuZero のような高性能な手法による競合性能も示す。
- 参考スコア(独自算出の注目度): 21.329004162570016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of building general agents that perform well over a wide range of
tasks has been an importantgoal in reinforcement learning since its inception.
The problem has been subject of research of alarge body of work, with
performance frequently measured by observing scores over the wide rangeof
environments contained in the Atari 57 benchmark. Agent57 was the first agent
to surpass thehuman benchmark on all 57 games, but this came at the cost of
poor data-efficiency, requiring nearly 80billion frames of experience to
achieve. Taking Agent57 as a starting point, we employ a diverse set
ofstrategies to achieve a 200-fold reduction of experience needed to outperform
the human baseline. Weinvestigate a range of instabilities and bottlenecks we
encountered while reducing the data regime, andpropose effective solutions to
build a more robust and efficient agent. We also demonstrate
competitiveperformance with high-performing methods such as Muesli and MuZero.
The four key components toour approach are (1) an approximate trust region
method which enables stable bootstrapping from theonline network, (2) a
normalisation scheme for the loss and priorities which improves robustness
whenlearning a set of value functions with a wide range of scales, (3) an
improved architecture employingtechniques from NFNets in order to leverage
deeper networks without the need for normalization layers,and (4) a policy
distillation method which serves to smooth out the instantaneous greedy policy
overtime.
- Abstract(参考訳): 幅広いタスクをこなす汎用エージェントを構築するというタスクは、その開始以来、強化学習において重要な役割を担ってきた。
この問題は、Atari 57ベンチマークに含まれる幅広い環境のスコアを観測することで頻繁に測定される大規模作業体の研究の対象となっている。
Agent57は57のゲームで人為的なベンチマークを超えた最初のエージェントであったが、これはデータ効率が悪く、80億フレーム近い経験を必要とした。
Agent57を出発点として、我々は多種多様な戦略を用いて、人間のベースラインを上回る200倍の経験を減らした。
データ体制を縮小しながら直面するさまざまな不安定性とボトルネックを調査し、より堅牢で効率的なエージェントを構築する効果的なソリューションを提案します。
また,Muesli や MuZero のような高性能な手法による競争性能を示す。
The four key components toour approach are (1) an approximate trust region method which enables stable bootstrapping from theonline network, (2) a normalisation scheme for the loss and priorities which improves robustness whenlearning a set of value functions with a wide range of scales, (3) an improved architecture employingtechniques from NFNets in order to leverage deeper networks without the need for normalization layers,and (4) a policy distillation method which serves to smooth out the instantaneous greedy policy overtime.
関連論文リスト
- FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - Layer Ensemble Averaging for Improving Memristor-Based Artificial Neural Network Performance [0.6560901506023631]
memristorsのようなインメモリの計算アーキテクチャは、ハードウェアの非理想性によって、将来性はあるが課題に直面している。
レイヤアンサンブル平均化は、事前学習されたニューラルネットワークソリューションをソフトウェアから欠陥のあるハードウェアクロスバーにマッピングするテクニックである。
その結果、レイヤアンサンブル平均化は、ソフトウェアベースラインまで、欠陥のあるメモリネットワーク性能を確実に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-04-24T03:19:31Z) - Enhancing Infrared Small Target Detection Robustness with Bi-Level
Adversarial Framework [61.34862133870934]
本稿では,異なる汚職の存在下での検出の堅牢性を促進するために,二段階の対向的枠組みを提案する。
我々の手法は広範囲の汚職で21.96%のIOUを著しく改善し、特に一般ベンチマークで4.97%のIOUを推進している。
論文 参考訳(メタデータ) (2023-09-03T06:35:07Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Building Robust Ensembles via Margin Boosting [98.56381714748096]
敵のロバスト性においては、単一のモデルは通常、全ての敵の攻撃に対して十分な力を持っていない。
我々は最大利得のアンサンブルを学習するアルゴリズムを開発した。
提案アルゴリズムは,既存のアンサンブル技術に勝るだけでなく,エンド・ツー・エンドで訓練された大規模モデルにも勝ることを示す。
論文 参考訳(メタデータ) (2022-06-07T14:55:58Z) - Generalized Data Distribution Iteration [0.0]
我々は、深層強化学習において、データの豊かさと探索・探索のトレードオフを同時に解決する。
本稿では, DQN から Agent57 までよく知られた RL メソッドの演算子ベースのバージョンを紹介する。
我々のアルゴリズムは、平均的ヒト正規化スコア (HNS) が9620.33%、中央値が1146.39%、トレーニングフレームがわずか2億本で22人を超えた。
論文 参考訳(メタデータ) (2022-06-07T11:27:40Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Unsupervised Domain-adaptive Hash for Networks [81.49184987430333]
ドメイン適応型ハッシュ学習はコンピュータビジョンコミュニティでかなりの成功を収めた。
UDAHと呼ばれるネットワークのための教師なしドメイン適応型ハッシュ学習手法を開発した。
論文 参考訳(メタデータ) (2021-08-20T12:09:38Z) - Age of Information Aware VNF Scheduling in Industrial IoT Using Deep
Reinforcement Learning [9.780232937571599]
深部強化学習(DRL)はそのような問題を解決するための有効な方法として現れている。
本論文では, 単一エージェントの低複素複素アクションアクター-クリティカルRLを用いて離散的および連続的なアクションの両方をカバーする。
その後、エージェントが互いに協力するマルチエージェントDRLスキームにソリューションを拡張します。
論文 参考訳(メタデータ) (2021-05-10T09:04:49Z) - Agent57: Outperforming the Atari Human Benchmark [15.75730239983062]
Atariゲームは強化学習における長年のベンチマークだ。
本稿では,Atari 57 ゲームにおいて,Atari 57 ゲームにおいてヒトの標準ベンチマークを上回り,初の深度 RL エージェントである Agent57 を提案する。
論文 参考訳(メタデータ) (2020-03-30T11:33:16Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。