論文の概要: The primacy bias in Model-based RL
- arxiv url: http://arxiv.org/abs/2310.15017v1
- Date: Mon, 23 Oct 2023 15:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 19:17:22.209489
- Title: The primacy bias in Model-based RL
- Title(参考訳): モデルベースRLのプライマリーバイアス
- Authors: Zhongjian Qiao and Jiafei Lyu and Xiu Li
- Abstract要約: プライマリーバイアスは エージェントの傾向だ 早期データに適合し 新しいデータから学ぶ能力を失う
これまでの研究では、エージェントのパラメータをリセットするといった単純な手法を用いることで、プライマリーバイアスを大幅に緩和できることが示されている。
本稿では,モデルに基づく強化学習における世界モデルリセットを提案する。
- 参考スコア(独自算出の注目度): 30.812477200123507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primacy bias in deep reinforcement learning (DRL), which refers to the
agent's tendency to overfit early data and lose the ability to learn from new
data, can significantly decrease the performance of DRL algorithms. Previous
studies have shown that employing simple techniques, such as resetting the
agent's parameters, can substantially alleviate the primacy bias. However, we
observe that resetting the agent's parameters harms its performance in the
context of model-based reinforcement learning (MBRL). In fact, on further
investigation, we find that the primacy bias in MBRL differs from that in
model-free RL. In this work, we focus on investigating the primacy bias in MBRL
and propose world model resetting, which works in MBRL. We apply our method to
two different MBRL algorithms, MBPO and DreamerV2. We validate the
effectiveness of our method on multiple continuous control tasks on MuJoCo and
DeepMind Control Suite, as well as discrete control tasks on Atari 100k
benchmark. The results show that world model resetting can significantly
alleviate the primacy bias in model-based setting and improve algorithm's
performance. We also give a guide on how to perform world model resetting
effectively.
- Abstract(参考訳): 深層強化学習(DRL)におけるプライマリーバイアスは、エージェントが早期データに過度に適合し、新しいデータから学習する能力を失う傾向を示すものであり、DRLアルゴリズムの性能を著しく低下させる。
これまでの研究では、エージェントのパラメータをリセットするといった単純な手法を用いることで、プライマリーバイアスを大幅に緩和できることが示されている。
しかし,モデルベース強化学習(mbrl)の文脈において,エージェントのパラメータの再設定がその性能を損なうことを観察した。
実際、さらなる調査で、MBRLの優性バイアスはモデルフリーのRLと異なることが判明した。
本研究では,MBRLにおけるプライマリーバイアスの調査に焦点をあて,MBRLで動作する世界モデルリセットを提案する。
我々はMBPOとDreamerV2の2つの異なるMBRLアルゴリズムに適用する。
本手法は,mujocoとdeepmindの複数の連続制御タスクとatari 100kベンチマークの離散制御タスクに対して有効であることを検証した。
その結果,世界モデルのリセットにより,モデルベース設定におけるプライオリティバイアスが大幅に軽減され,アルゴリズムの性能が向上することが示された。
また,世界モデルのリセットを効果的に行う方法についても紹介する。
関連論文リスト
- Towards Robust Model-Based Reinforcement Learning Against Adversarial
Corruption [66.5930514142814]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Transmit Power Control for Indoor Small Cells: A Method Based on
Federated Reinforcement Learning [2.392377380146]
本稿では,フェデレート強化学習(FRL)に基づく分散セル電力制御方式を提案する。
異なる屋内環境のモデルはトレーニングプロセス中にグローバルモデルに集約され、中央サーバは更新されたモデルを各クライアントにブロードキャストする。
一般化実験の結果, FRLモデルをベースモデルとして用いることにより, 新しい環境下でのモデルの収束速度が向上することが示された。
論文 参考訳(メタデータ) (2022-08-31T14:46:09Z) - An Analysis of Model-Based Reinforcement Learning From Abstracted
Observations [24.964038353043918]
オンラインで収集したサンプル(例えば実世界のサンプル)とモデルベース強化学習(MBRL)の結果の依存関係を抽象化することで実現可能であることを示す。
我々はこの問題を克服するためにマルティンガレの濃度不等式を使用できることを示す。
原型的MBRLアルゴリズムであるR-MAXと抽象化を組み合わせることで、モデルベースの「抽象観測からのRL」に対する最初の性能保証を生成する。
論文 参考訳(メタデータ) (2022-08-30T17:19:26Z) - A Survey on Model-based Reinforcement Learning [21.85904195671014]
強化学習(Reinforcement Learning, RL)は、環境と対話する試行錯誤プロセスを通じて、シーケンシャルな意思決定問題を解決する。
モデルベース強化学習(MBRL)は有望な方向であり、実際のコストなしで試行錯誤を行う環境モデルを構築する。
論文 参考訳(メタデータ) (2022-06-19T05:28:03Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Regret Minimization Experience Replay [14.233842517210437]
優先サンプリングはRL剤の性能を向上させるための有望な手法である。
本研究では,rl政策の後悔を最小限に抑える最適な優先順位付け戦略を理論的に分析する。
RM-DisCorとRM-TCEの2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-15T16:08:45Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。