論文の概要: Rethinking Population-assisted Off-policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.02949v1
- Date: Thu, 4 May 2023 15:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 14:58:26.925327
- Title: Rethinking Population-assisted Off-policy Reinforcement Learning
- Title(参考訳): 人口支援型オフポリシー強化学習の再考
- Authors: Bowen Zheng, Ran Cheng
- Abstract要約: オフ政治強化学習アルゴリズムは、限られた探索のために局所最適への収束に苦慮する。
人口ベースのアルゴリズムは自然探索戦略を提供するが、ブラックボックス演算子は非効率である。
最近のアルゴリズムはこれら2つの手法を統合し、共有再生バッファを介してそれらを接続している。
- 参考スコア(独自算出の注目度): 7.837628433605179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While off-policy reinforcement learning (RL) algorithms are sample efficient
due to gradient-based updates and data reuse in the replay buffer, they
struggle with convergence to local optima due to limited exploration. On the
other hand, population-based algorithms offer a natural exploration strategy,
but their heuristic black-box operators are inefficient. Recent algorithms have
integrated these two methods, connecting them through a shared replay buffer.
However, the effect of using diverse data from population optimization
iterations on off-policy RL algorithms has not been thoroughly investigated. In
this paper, we first analyze the use of off-policy RL algorithms in combination
with population-based algorithms, showing that the use of population data could
introduce an overlooked error and harm performance. To test this, we propose a
uniform and scalable training design and conduct experiments on our tailored
framework in robot locomotion tasks from the OpenAI gym. Our results
substantiate that using population data in off-policy RL can cause instability
during training and even degrade performance. To remedy this issue, we further
propose a double replay buffer design that provides more on-policy data and
show its effectiveness through experiments. Our results offer practical
insights for training these hybrid methods.
- Abstract(参考訳): オフ政治強化学習(RL)アルゴリズムは、勾配に基づく更新とリプレイバッファのデータ再利用のためにサンプリング効率が良いが、探索が限られているため、局所最適への収束に苦慮している。
一方、人口ベースのアルゴリズムは自然探査戦略を提供するが、ヒューリスティックなブラックボックス演算子は非効率である。
最近のアルゴリズムはこれら2つの手法を統合し、共有再生バッファを介してそれらを接続している。
しかし, 集団最適化による多種多様なデータの利用が, オフポリシーrlアルゴリズムに与える影響については, 十分に検討されていない。
本稿では,まず,オフ・ポリティカル・rlアルゴリズムと人口ベースのアルゴリズムを組み合わせることで,人口データの利用が過度に見過ごされた誤りと有害な性能をもたらすことを示す。
これをテストするため,OpenAI体育館のロボット移動タスクにおいて,一様でスケーラブルなトレーニング設計と,我々の調整したフレームワークを用いた実験を行った。
以上の結果から, 都市外RLにおける人口データの利用は, トレーニング中に不安定になり, 性能が低下する可能性が示唆された。
この問題を改善するため,我々はさらに,より多くのオンポリシーデータを提供し,実験によりその効果を示すダブルリプレイバッファ設計を提案する。
本研究は,これらのハイブリッド手法を訓練するための実践的洞察を提供する。
関連論文リスト
- Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - Personalized Federated Deep Reinforcement Learning-based Trajectory
Optimization for Multi-UAV Assisted Edge Computing [22.09756306579992]
UAVはエッジコンピューティング環境でインテリジェントなサーバとして機能し、通信システムのスループットを最大化するために飛行軌道を最適化する。
深部強化学習(DRL)に基づく軌道最適化アルゴリズムは、複雑な地形特徴と不十分な訓練データにより、訓練性能が低下する可能性がある。
本研究は,マルチUAV軌道最適化のための新しい手法,すなわちパーソナライズされた深部強化学習(PF-DRL)を提案する。
論文 参考訳(メタデータ) (2023-09-05T12:54:40Z) - A Data-Centric Approach for Improving Adversarial Training Through the
Lens of Out-of-Distribution Detection [0.4893345190925178]
複雑なアルゴリズムを適用して効果を緩和するのではなく, トレーニング手順から直接ハードサンプルを検出し, 除去することを提案する。
SVHN と CIFAR-10 データセットを用いた結果,計算コストの増大を伴わずに対角訓練の改善に本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-01-25T08:13:50Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Data-Driven Evaluation of Training Action Space for Reinforcement
Learning [1.370633147306388]
本稿では,行動空間の分類とランク付けを訓練するためのShapleyに着想を得た方法論を提案する。
指数時間シェープ計算を減らすため、モンテカルロシミュレーションを含む。
提案したデータ駆動手法は、異なるドメイン、ユースケース、強化学習アルゴリズムへのRLである。
論文 参考訳(メタデータ) (2022-04-08T04:53:43Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
論文 参考訳(メタデータ) (2022-03-22T18:10:32Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。