論文の概要: Bigger, Better, Faster: Human-level Atari with human-level efficiency
- arxiv url: http://arxiv.org/abs/2305.19452v1
- Date: Tue, 30 May 2023 23:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:17:12.246417
- Title: Bigger, Better, Faster: Human-level Atari with human-level efficiency
- Title(参考訳): より大きく、より良く、より速く:人間レベルの効率のアタリ
- Authors: Max Schwarzer, Johan Obando-Ceron, Aaron Courville, Marc Bellemare,
Rishabh Agarwal, Pablo Samuel Castro
- Abstract要約: 我々は,Atari 100Kベンチマークで超人的性能を実現する,BBFと呼ばれる値ベースのRLエージェントを提案する。
我々は、これらの設計選択を広範囲に分析し、将来の作業に対する洞察を提供する。
- 参考スコア(独自算出の注目度): 18.03935242043842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a value-based RL agent, which we call BBF, that achieves
super-human performance in the Atari 100K benchmark. BBF relies on scaling the
neural networks used for value estimation, as well as a number of other design
choices that enable this scaling in a sample-efficient manner. We conduct
extensive analyses of these design choices and provide insights for future
work. We end with a discussion about updating the goalposts for
sample-efficient RL research on the ALE. We make our code and data publicly
available at
https://github.com/google-research/google-research/tree/master/bigger_better_faster.
- Abstract(参考訳): 我々は,Atari 100Kベンチマークで超人的性能を実現する,BBFと呼ばれる値ベースのRLエージェントを提案する。
BBFは、値推定に使用されるニューラルネットワークのスケーリングと、このスケーリングをサンプル効率のよい方法で実現するための多くの設計選択に依存している。
我々は、これらの設計選択を広範囲に分析し、将来の作業に対する洞察を提供する。
最終的に、ALEにおけるサンプル効率のよいRL研究のためのゴールポストの更新について議論する。
コードとデータはhttps://github.com/google-research/google-research/tree/master/bigger_better_fasterで公開しています。
関連論文リスト
- How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Double-Bounded Optimal Transport for Advanced Clustering and
Classification [58.237576976486544]
本稿では,2つの境界内での目標分布の制限を前提としたDB-OT(Douubly bounded Optimal Transport)を提案する。
提案手法は,テスト段階における改良された推論方式により,良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-01-21T07:43:01Z) - Influence-Based Mini-Batching for Graph Neural Networks [0.0]
グラフニューラルネットワークに対する影響に基づくミニバッチを提案する。
IBMBは従来の手法に比べて最大130倍の推論を高速化する。
これにより、エポック毎のトレーニングが最大18倍、ランタイム毎のコンバージェンス毎のコンバージェンスの最大17倍高速になる。
論文 参考訳(メタデータ) (2022-12-18T13:27:01Z) - Prior-mean-assisted Bayesian optimization application on FRIB Front-End
tunning [61.78406085010957]
我々は、FRIBフロントエンドチューニングのためのBOの事前平均として、過去のデータに基づいてトレーニングされたニューラルネットワークモデルを利用する。
本稿では、FRIBフロントエンドチューニングのためのBOの事前平均として、過去のデータに基づいてトレーニングされたニューラルネットワークモデルを利用する。
論文 参考訳(メタデータ) (2022-11-11T18:34:15Z) - Infinite Recommendation Networks: A Data-Centric Approach [8.044430277912936]
Neural Tangent Kernelを活用して、無限大のニューラルネットワークをトレーニングし、無限大のボトルネック層を持つオートエンコーダであるinfty$-AEを考案します。
また、小型で高忠実なデータ要約を合成するためのDistill-CFを開発した。
我々は、最初のデータセットサイズの0.1%に満たない完全なデータセット上で、infty$-AEのパフォーマンスの96-105%を観察した。
論文 参考訳(メタデータ) (2022-06-03T00:34:13Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。
提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。
アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2021-10-30T09:13:39Z) - A Bop and Beyond: A Second Order Optimizer for Binarized Neural Networks [0.0]
Binary Neural Networks (BNNs) の最適化は、実数値の重みをバイナライズ表現で近似することに依存している。
本稿では,第2の生モーメント推定を用いて第1の生モーメントを正規化し,しきい値との比較を行うアダム法と並行する手法を提案する。
提案した2つのバージョン – バイアス付きバージョンとバイアス修正バージョン – をそれぞれ独自のアプリケーションで提示する。
論文 参考訳(メタデータ) (2021-04-11T22:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。