論文の概要: GDI: Rethinking What Makes Reinforcement Learning Different From
Supervised Learning
- arxiv url: http://arxiv.org/abs/2106.06232v1
- Date: Fri, 11 Jun 2021 08:31:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:25:01.765664
- Title: GDI: Rethinking What Makes Reinforcement Learning Different From
Supervised Learning
- Title(参考訳): GDI: 強化学習と教師付き学習との違いを再考する
- Authors: Jiajun Fan, Changnan Xiao, Yue Huang
- Abstract要約: 我々は、一般化政策イテレーション(GPI)と呼ばれるRLの基本パラダイムを、一般化データ分散イテレーション(GDI)と呼ばれるより一般的なバージョンに拡張する。
提案アルゴリズムは, 平均正規化スコア(HNS)9620.98%, 中央値HNS1146.39%, HWRB22を200フレームのトレーニングフレームで達成した。
- 参考スコア(独自算出の注目度): 8.755783981297396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Q Network (DQN) firstly kicked the door of deep reinforcement learning
(DRL) via combining deep learning (DL) with reinforcement learning (RL), which
has noticed that the distribution of the acquired data would change during the
training process. DQN found this property might cause instability for training,
so it proposed effective methods to handle the downside of the property.
Instead of focusing on the unfavourable aspects, we find it critical for RL to
ease the gap between the estimated data distribution and the ground truth data
distribution while supervised learning (SL) fails to do so. From this new
perspective, we extend the basic paradigm of RL called the Generalized Policy
Iteration (GPI) into a more generalized version, which is called the
Generalized Data Distribution Iteration (GDI). We see massive RL algorithms and
techniques can be unified into the GDI paradigm, which can be considered as one
of the special cases of GDI. We provide theoretical proof of why GDI is better
than GPI and how it works. Several practical algorithms based on GDI have been
proposed to verify the effectiveness and extensiveness of it. Empirical
experiments prove our state-of-the-art (SOTA) performance on Arcade Learning
Environment (ALE), wherein our algorithm has achieved 9620.98% mean human
normalized score (HNS), 1146.39% median HNS and 22 human world record
breakthroughs (HWRB) using only 200 training frames. Our work aims to lead the
RL research to step into the journey of conquering the human world records and
seek real superhuman agents on both performance and efficiency.
- Abstract(参考訳): 深部Qネットワーク(DQN)は, 深部学習(DL)と強化学習(RL)を組み合わせることで, 深部強化学習(DRL)の扉を蹴り上げた。
DQNは、この特性がトレーニングの不安定性を引き起こす可能性があると判断し、プロパティの欠点を扱う効果的な方法を提案した。
予測されたデータ分布と地上の真理データ分布とのギャップを緩和すると同時に,教師あり学習(SL)の失敗を解消することが,RLにとって極めて重要である。
この新たな視点から、一般化政策イテレーション(GPI)と呼ばれるRLの基本パラダイムをより一般化されたバージョンに拡張し、これを一般化データ分散イテレーション(GDI)と呼ぶ。
我々は,大規模RLアルゴリズムと手法をGDIパラダイムに統合し,GDIの特殊な事例の一つとみなすことができると考えている。
GDI が GPI よりも優れている理由と動作方法の理論的証明を提供する。
GDIに基づくいくつかの実用的なアルゴリズムが提案され、その有効性と拡張性を検証する。
実験により、アーケード学習環境(ALE)におけるSOTA(State-of-the-art)のパフォーマンスが実証され、このアルゴリズムは9620.98%の平均正規化スコア(HNS)、1146.39%の中央値HNS、22の人的世界記録ブレークスルー(HWRB)をわずか200フレームで達成した。
我々の研究は、RL研究を先導し、人間の世界記録を征服し、パフォーマンスと効率の両面で真のスーパーヒューマンエージェントを追求することを目的としています。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Generative AI for Deep Reinforcement Learning: Framework, Analysis, and Use Cases [60.30995339585003]
深部強化学習(DRL)は様々な分野に広く適用されており、優れた成果を上げている。
DRLは、サンプル効率の低下や一般化の低さなど、いくつかの制限に直面している。
本稿では、これらの問題に対処し、DRLアルゴリズムの性能を向上させるために、生成AI(GAI)を活用する方法について述べる。
論文 参考訳(メタデータ) (2024-05-31T01:25:40Z) - Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。
教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。
我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文 参考訳(メタデータ) (2024-05-22T13:39:33Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Generalized Data Distribution Iteration [0.0]
我々は、深層強化学習において、データの豊かさと探索・探索のトレードオフを同時に解決する。
本稿では, DQN から Agent57 までよく知られた RL メソッドの演算子ベースのバージョンを紹介する。
我々のアルゴリズムは、平均的ヒト正規化スコア (HNS) が9620.33%、中央値が1146.39%、トレーニングフレームがわずか2億本で22人を超えた。
論文 参考訳(メタデータ) (2022-06-07T11:27:40Z) - Federated Deep Reinforcement Learning for the Distributed Control of
NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。
データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。
深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文 参考訳(メタデータ) (2021-12-07T03:13:20Z) - GRI: General Reinforced Imitation and its Application to Vision-Based
Autonomous Driving [9.030769176986057]
General Reinforced Imitation (GRI)は、探索と専門家データから得られる利点を組み合わせた新しい手法である。
提案手法は,都市環境における視覚に基づく自動運転の大幅な改善を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-16T15:52:54Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。