論文の概要: Mind the Model, Not the Agent: The Primacy Bias in Model-based RL
- arxiv url: http://arxiv.org/abs/2310.15017v2
- Date: Sun, 7 Jul 2024 14:32:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 03:18:28.524755
- Title: Mind the Model, Not the Agent: The Primacy Bias in Model-based RL
- Title(参考訳): モデルを考える、エージェントではなく:モデルベースRLのプライマリバイアス
- Authors: Zhongjian Qiao, Jiafei Lyu, Xiu Li,
- Abstract要約: モデルフリー強化学習(MFRL)におけるプライマリシーバイアス(プライマリシーバイアス)とは、エージェントが早期データに適合し、新しいデータから学習する能力を失う傾向をいう。
これまでの研究では、エージェントのパラメータをリセットするといった単純な手法を用いることで、MFRLの優劣バイアスを大幅に緩和できることが示されている。
本研究は,モデルベース強化学習(MBRL)におけるプライマリシーバイアスの調査に焦点をあてる。
- 参考スコア(独自算出の注目度): 27.41568030157649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primacy bias in model-free reinforcement learning (MFRL), which refers to the agent's tendency to overfit early data and lose the ability to learn from new data, can significantly decrease the performance of MFRL algorithms. Previous studies have shown that employing simple techniques, such as resetting the agent's parameters, can substantially alleviate the primacy bias in MFRL. However, the primacy bias in model-based reinforcement learning (MBRL) remains unexplored. In this work, we focus on investigating the primacy bias in MBRL. We begin by observing that resetting the agent's parameters harms its performance in the context of MBRL. We further find that the primacy bias in MBRL is more closely related to the primacy bias of the world model instead of the primacy bias of the agent. Based on this finding, we propose \textit{world model resetting}, a simple yet effective technique to alleviate the primacy bias in MBRL. We apply our method to two different MBRL algorithms, MBPO and DreamerV2. We validate the effectiveness of our method on multiple continuous control tasks on MuJoCo and DeepMind Control Suite, as well as discrete control tasks on Atari 100k benchmark. The experimental results show that \textit{world model resetting} can significantly alleviate the primacy bias in the model-based setting and improve the algorithm's performance. We also give a guide on how to perform \textit{world model resetting} effectively.
- Abstract(参考訳): モデルフリー強化学習(MFRL)におけるプライマリーバイアスは、エージェントが早期データに過度に適合し、新しいデータから学習する能力を失う傾向を示すものであり、MFRLアルゴリズムの性能を著しく低下させる可能性がある。
これまでの研究では、エージェントのパラメータをリセットするといった単純な手法を用いることで、MFRLの優劣バイアスを大幅に緩和できることが示されている。
しかし、モデルベース強化学習(MBRL)の優位性バイアスは未解明のままである。
本研究は,MBRLにおけるプライマリーバイアスの調査に焦点をあてる。
まず、エージェントのパラメータのリセットがMBRLの文脈でその性能を損なうことを観察する。
さらに、MBRLのプライマシーバイアスは、エージェントのプライマシーバイアスではなく、世界モデルのプライマシーバイアスとより密接な関係があることが分かる。
そこで本研究では, MBRL のプライマリ性バイアスを軽減するため, 簡便かつ効果的な手法である textit{world model resetting} を提案する。
本手法をMBPOとDreamerV2の2つの異なるMBRLアルゴリズムに適用する。
本研究では, MuJoCo および DeepMind Control Suite 上の複数連続制御タスクにおける本手法の有効性と, Atari 100k ベンチマークにおける離散制御タスクの有効性を検証する。
実験結果から, <textit{world model resetting} は, モデルベース設定におけるプライマリーバイアスを大幅に軽減し, アルゴリズムの性能向上を図っている。
また、 'textit{world model resetting} を効果的に実行する方法についてのガイドも提供します。
関連論文リスト
- BECAUSE: Bilinear Causal Representation for Generalizable Offline Model-based Reinforcement Learning [39.090104460303415]
オフラインモデルベース強化学習(MBRL)は、事前コンパイルされたデータセットを使用してモデルとポリシーを学ぶことにより、データ効率を向上させる。
本稿は、このミスマッチの主な原因を、オフラインデータに存在する根底にある共同設立者から特定する。
両状態の因果表現をキャプチャするアルゴリズムである textbfBilintextbfEar textbfCAUSal rtextbfEpresentation (BECAUSE) を導入する。
論文 参考訳(メタデータ) (2024-07-15T17:59:23Z) - Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - An Analysis of Model-Based Reinforcement Learning From Abstracted
Observations [24.964038353043918]
オンラインで収集したサンプル(例えば実世界のサンプル)とモデルベース強化学習(MBRL)の結果の依存関係を抽象化することで実現可能であることを示す。
我々はこの問題を克服するためにマルティンガレの濃度不等式を使用できることを示す。
原型的MBRLアルゴリズムであるR-MAXと抽象化を組み合わせることで、モデルベースの「抽象観測からのRL」に対する最初の性能保証を生成する。
論文 参考訳(メタデータ) (2022-08-30T17:19:26Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Physics-informed Dyna-Style Model-Based Deep Reinforcement Learning for
Dynamic Control [1.8275108630751844]
本稿では,支配法則が(一部)知られている環境の物理の先行知識を活用することを提案する。
環境の事前情報を取り入れることで、学習したモデルの品質を顕著に改善することができる。
論文 参考訳(メタデータ) (2021-07-31T02:19:36Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。