論文の概要: Generalized Data Distribution Iteration
- arxiv url: http://arxiv.org/abs/2206.03192v1
- Date: Tue, 7 Jun 2022 11:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 14:31:24.947016
- Title: Generalized Data Distribution Iteration
- Title(参考訳): 一般化データ配信イテレーション
- Authors: Jiajun Fan, Changnan Xiao
- Abstract要約: 我々は、深層強化学習において、データの豊かさと探索・探索のトレードオフを同時に解決する。
本稿では, DQN から Agent57 までよく知られた RL メソッドの演算子ベースのバージョンを紹介する。
我々のアルゴリズムは、平均的ヒト正規化スコア (HNS) が9620.33%、中央値が1146.39%、トレーニングフレームがわずか2億本で22人を超えた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To obtain higher sample efficiency and superior final performance
simultaneously has been one of the major challenges for deep reinforcement
learning (DRL). Previous work could handle one of these challenges but
typically failed to address them concurrently. In this paper, we try to tackle
these two challenges simultaneously. To achieve this, we firstly decouple these
challenges into two classic RL problems: data richness and
exploration-exploitation trade-off. Then, we cast these two problems into the
training data distribution optimization problem, namely to obtain desired
training data within limited interactions, and address them concurrently via i)
explicit modeling and control of the capacity and diversity of behavior policy
and ii) more fine-grained and adaptive control of selective/sampling
distribution of the behavior policy using a monotonic data distribution
optimization. Finally, we integrate this process into Generalized Policy
Iteration (GPI) and obtain a more general framework called Generalized Data
Distribution Iteration (GDI). We use the GDI framework to introduce
operator-based versions of well-known RL methods from DQN to Agent57.
Theoretical guarantee of the superiority of GDI compared with GPI is concluded.
We also demonstrate our state-of-the-art (SOTA) performance on Arcade Learning
Environment (ALE), wherein our algorithm has achieved 9620.33% mean human
normalized score (HNS), 1146.39% median HNS and surpassed 22 human world
records using only 200M training frames. Our performance is comparable to
Agent57's while we consume 500 times less data. We argue that there is still a
long way to go before obtaining real superhuman agents in ALE.
- Abstract(参考訳): 深層強化学習(drl)の大きな課題の一つとして、高いサンプル効率と優れた最終性能を同時に得ることにある。
以前の作業ではこれらの課題の1つに対処できたが、通常は同時に対処できなかった。
本稿では,これら2つの課題を同時に解決する。
これを実現するために、まずこれらの課題を2つの古典的なRL問題に分割する。
そして、これらの2つの問題をトレーニングデータ分散最適化問題、すなわち、限られたインタラクション内で所望のトレーニングデータを取得し、同時に対処する。
一 行動政策の能力及び多様性の明示的なモデル化及び制御
二 モノトニックデータ分布最適化による行動ポリシーの選択的・サンプリング分布のよりきめ細かい適応制御
最後に、このプロセスを一般化ポリシーイテレーション(GPI)に統合し、一般化データ分散イテレーション(GDI)と呼ばれるより一般的なフレームワークを得る。
我々は、DQNからAgent57までのよく知られたRLメソッドの演算子ベースのバージョンをGDIフレームワークで導入する。
GPIと比較してGDIの優位性は理論的に保証される。
また,本アルゴリズムは,平均ヒト正規化スコア (hns), 1146.39% の中央値 hn を9620.33% 達成し,200m のトレーニングフレームで 22 個の世界記録を突破したアーケード学習環境 (ale) 上での最先端 (sota) 性能を実証した。
パフォーマンスはエージェント57に匹敵しますが,データ消費量は500分の1です。
我々は、エールで真の超人的エージェントを得るまでにはまだ長い道のりがあると主張する。
関連論文リスト
- Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - SMaRt: Improving GANs with Score Matching Regularity [94.81046452865583]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることを示す。
スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Revisiting Gaussian mixture critics in off-policy reinforcement
learning: a sample-based approach [28.199348547856175]
本稿では、政策が達成できる最小限の知識と価値に関する事前知識の要求を除去する自然な代替案を再考する。
さまざまな課題に対して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-04-21T16:44:47Z) - GRI: General Reinforced Imitation and its Application to Vision-Based
Autonomous Driving [9.030769176986057]
General Reinforced Imitation (GRI)は、探索と専門家データから得られる利点を組み合わせた新しい手法である。
提案手法は,都市環境における視覚に基づく自動運転の大幅な改善を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-16T15:52:54Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - GDI: Rethinking What Makes Reinforcement Learning Different From
Supervised Learning [8.755783981297396]
我々は、一般化政策イテレーション(GPI)と呼ばれるRLの基本パラダイムを、一般化データ分散イテレーション(GDI)と呼ばれるより一般的なバージョンに拡張する。
提案アルゴリズムは, 平均正規化スコア(HNS)9620.98%, 中央値HNS1146.39%, HWRB22を200フレームのトレーニングフレームで達成した。
論文 参考訳(メタデータ) (2021-06-11T08:31:12Z) - Regularizing Generative Adversarial Networks under Limited Data [88.57330330305535]
本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。
正規化損失とLeCam-divergenceと呼ばれるf-divergenceの関連性を示す。
論文 参考訳(メタデータ) (2021-04-07T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。