論文の概要: Learnable Behavior Control: Breaking Atari Human World Records via
Sample-Efficient Behavior Selection
- arxiv url: http://arxiv.org/abs/2305.05239v1
- Date: Tue, 9 May 2023 08:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 13:25:07.221534
- Title: Learnable Behavior Control: Breaking Atari Human World Records via
Sample-Efficient Behavior Selection
- Title(参考訳): 学習可能な行動制御:サンプル効率な行動選択によるアタリ世界記録の破滅
- Authors: Jiajun Fan, Yuzheng Zhuang, Yuecheng Liu, Jianye Hao, Bin Wang,
Jiangcheng Zhu, Hao Wang, Shu-Tao Xia
- Abstract要約: 本稿では,LBC(Learable Behavioral Control)と呼ばれるフレームワークを提案する。
我々のエージェントは10077.52%の平均正規化スコアを達成し、1Bのトレーニングフレーム内で24人の世界記録を突破した。
- 参考スコア(独自算出の注目度): 56.87650511573298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exploration problem is one of the main challenges in deep reinforcement
learning (RL). Recent promising works tried to handle the problem with
population-based methods, which collect samples with diverse behaviors derived
from a population of different exploratory policies. Adaptive policy selection
has been adopted for behavior control. However, the behavior selection space is
largely limited by the predefined policy population, which further limits
behavior diversity. In this paper, we propose a general framework called
Learnable Behavioral Control (LBC) to address the limitation, which a) enables
a significantly enlarged behavior selection space via formulating a hybrid
behavior mapping from all policies; b) constructs a unified learnable process
for behavior selection. We introduce LBC into distributed off-policy
actor-critic methods and achieve behavior control via optimizing the selection
of the behavior mappings with bandit-based meta-controllers. Our agents have
achieved 10077.52% mean human normalized score and surpassed 24 human world
records within 1B training frames in the Arcade Learning Environment, which
demonstrates our significant state-of-the-art (SOTA) performance without
degrading the sample efficiency.
- Abstract(参考訳): 探索問題は、深層強化学習(RL)における主要な課題の1つである。
近年の有望な研究は、異なる探索政策の集団に由来する多様な行動のサンプルを収集する集団ベースの手法でこの問題に対処しようとした。
適応ポリシーの選択は行動制御に採用されている。
しかし、行動選択空間は、行動の多様性をさらに制限する事前定義された政策人口によって大きく制限されている。
本稿では,学習可能な行動制御(lbc)と呼ばれる汎用フレームワークを提案する。
a) すべての方針からハイブリッド行動マッピングを定式化することにより,著しく拡大された行動選択空間を可能にする。
b) 行動選択のための統一学習可能なプロセスを構築する。
lbcを分散オフポリシーアクタ-クリティック手法に導入し,banditベースのメタコントローラによる動作マッピングの選択を最適化することで行動制御を実現する。
私たちのエージェントは,人間の正規化スコアを10077.52%達成し,アーケード学習環境における1bトレーニングフレーム内の24個の世界記録を上回った。
関連論文リスト
- How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation [17.638831964639834]
行動クローニングポリシーは、人間のデモンストレーションから学ぶことで複雑なタスクを解決することに成功している。
本稿では,任意の環境下でのロボット性能について,より低バウンドなフレームワークを提案する。
実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。
論文 参考訳(メタデータ) (2024-05-08T22:00:35Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - ABC: Adversarial Behavioral Cloning for Offline Mode-Seeking Imitation
Learning [48.033516430071494]
本稿では,GAN(Generative Adversarial Network)トレーニングの要素を取り入れて,モード探索行動を示す行動クローニング(BC)の修正版を紹介する。
我々は,DeepMind Control スイートから Hopper をベースとした玩具ドメインとドメイン上でABC を評価し,モード探索により標準 BC よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-08T04:54:54Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Externally Valid Policy Choice [0.0]
対外的あるいは一般化可能なパーソナライズされた治療方針を学習することの問題点を考察する。
まず,実験人口に対する福祉最大化政策は,成果の分布の変化に対して堅牢であることを示す。
そして、結果や特徴の変化に頑健な政策を学ぶための新しい方法を開発する。
論文 参考訳(メタデータ) (2022-05-11T15:19:22Z) - Learning Complex Spatial Behaviours in ABM: An Experimental
Observational Study [0.0]
本稿では,創発的エージェント行動の生成にReinforcement Learningを適用する方法について検討する。
一連のシミュレーションを行ない, エージェントが実世界の知的適応行動の特性を示す方法として, プロクサマルポリシー最適化アルゴリズムを用いて訓練されたことを実証した。
論文 参考訳(メタデータ) (2022-01-04T11:56:11Z) - Improving Generalization in Reinforcement Learning with Mixture
Regularization [113.12412071717078]
そこで本研究では,異なるトレーニング環境からの観察を混合してエージェントを訓練する,mixregという簡単なアプローチを提案する。
Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。
その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2020-10-21T08:12:03Z) - Unified Models of Human Behavioral Agents in Bandits, Contextual Bandits
and RL [28.38826379640553]
逐次的意思決定のためのより汎用的で柔軟なパラメトリック・フレームワークを提案する。
多くの精神疾患の既往の報酬処理異常にインスパイアされ、臨床にインスパイアされたエージェントは興味深い行動軌跡を示した。
論文 参考訳(メタデータ) (2020-05-10T01:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。