論文の概要: How to Make Deep RL Work in Practice
- arxiv url: http://arxiv.org/abs/2010.13083v2
- Date: Tue, 10 Nov 2020 12:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 05:16:57.573247
- Title: How to Make Deep RL Work in Practice
- Title(参考訳): ディープRLを実践するための方法
- Authors: Nirnai Rao, Elie Aljalbout, Axel Sauer, Sami Haddadin
- Abstract要約: 最新のアルゴリズムの報告結果は、しばしば再現が困難である。
デフォルトで使用するテクニックのどれを推奨し、RLに特化されたソリューションの恩恵を受ける可能性のある領域を強調します。
- 参考スコア(独自算出の注目度): 15.740760669623876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, challenging control problems became solvable with deep
reinforcement learning (RL). To be able to use RL for large-scale real-world
applications, a certain degree of reliability in their performance is
necessary. Reported results of state-of-the-art algorithms are often difficult
to reproduce. One reason for this is that certain implementation details
influence the performance significantly. Commonly, these details are not
highlighted as important techniques to achieve state-of-the-art performance.
Additionally, techniques from supervised learning are often used by default but
influence the algorithms in a reinforcement learning setting in different and
not well-understood ways. In this paper, we investigate the influence of
certain initialization, input normalization, and adaptive learning techniques
on the performance of state-of-the-art RL algorithms. We make suggestions which
of those techniques to use by default and highlight areas that could benefit
from a solution specifically tailored to RL.
- Abstract(参考訳): 近年,深層強化学習(rl)により,難解な制御課題が解決可能となった。
大規模な実世界のアプリケーションにRLを使用できるためには、その性能のある程度の信頼性が必要である。
最新のアルゴリズムの報告結果は、しばしば再現が困難である。
この理由の1つは、特定の実装の詳細がパフォーマンスに大きな影響を及ぼすからである。
一般的に、これらの詳細は最先端のパフォーマンスを達成する重要な技術として強調されていない。
さらに、教師付き学習のテクニックは、しばしばデフォルトで使用されるが、強化学習環境でのアルゴリズムによく影響し、よく理解されていない。
本稿では, ある初期化, 入力正規化, 適応学習技術が, 最先端RLアルゴリズムの性能に与える影響について検討する。
デフォルトで使用するテクニックのどれを推奨し、RLに特化されたソリューションの恩恵を受ける可能性のある領域を強調します。
関連論文リスト
- Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Understanding Reinforcement Learning Algorithms: The Progress from Basic
Q-learning to Proximal Policy Optimization [0.6091702876917281]
強化学習(RL)にはユニークな設定、用語、数学があり、新しい分野や人工知能を脅かすことができる。
本稿では、RLの基本原理を明確かつ簡潔に概説し、RLアルゴリズムの異なるタイプについて述べる。
論文の提示は、1980年代初頭のQ-ラーニングアルゴリズムから、TD3、PPO、オフラインRLといった最先端のアルゴリズムまで、この分野の歴史的進歩と一致している。
論文 参考訳(メタデータ) (2023-03-31T17:24:51Z) - A Survey of Meta-Reinforcement Learning [83.95180398234238]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Large Language Models can Implement Policy Iteration [18.424558160071808]
In-Context Policy Iterationは、基礎モデルを用いてReinforcement Learning(RL)を実行するアルゴリズムである。
ICPIは、専門家によるデモンストレーションやグラデーションなしでRLタスクを実行することを学ぶ。
ICPIは、RL環境との試行錯誤によってポリシーを導出するプロンプトの内容を反復的に更新する。
論文 参考訳(メタデータ) (2022-10-07T21:18:22Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - Can Increasing Input Dimensionality Improve Deep Reinforcement Learning? [15.578423102700764]
本稿では,ニューラルネットを用いたオンライン特徴抽出ネットワーク(OFENet)を提案する。
我々はRLエージェントが低次元状態観測よりも高次元表現でより効率的に学習できることを示す。
論文 参考訳(メタデータ) (2020-03-03T16:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。