論文の概要: DROP: Distributional and Regular Optimism and Pessimism for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.17473v1
- Date: Tue, 22 Oct 2024 23:14:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:26.584713
- Title: DROP: Distributional and Regular Optimism and Pessimism for Reinforcement Learning
- Title(参考訳): DROP: 強化学習のための分布的・正規的最適化とペシミズム
- Authors: Taisuke Kobayashi,
- Abstract要約: 本稿では,制御を推論として導いた楽観主義と悲観主義を用いた理論的基礎モデルを提案する。
モデルでは学習性能は低かったが,DROPは全タスクにおいて高い一般性を示した。
- 参考スコア(独自算出の注目度): 6.20048328543366
- License:
- Abstract: In reinforcement learning (RL), temporal difference (TD) error is known to be related to the firing rate of dopamine neurons. It has been observed that each dopamine neuron does not behave uniformly, but each responds to the TD error in an optimistic or pessimistic manner, interpreted as a kind of distributional RL. To explain such a biological data, a heuristic model has also been designed with learning rates asymmetric for the positive and negative TD errors. However, this heuristic model is not theoretically-grounded and unknown whether it can work as a RL algorithm. This paper therefore introduces a novel theoretically-grounded model with optimism and pessimism, which is derived from control as inference. In combination with ensemble learning, a distributional value function as a critic is estimated from regularly introduced optimism and pessimism. Based on its central value, a policy in an actor is improved. This proposed algorithm, so-called DROP (distributional and regular optimism and pessimism), is compared on dynamic tasks. Although the heuristic model showed poor learning performance, DROP showed excellent one in all tasks with high generality. In other words, it was suggested that DROP is a new model that can elicit the potential contributions of optimism and pessimism.
- Abstract(参考訳): 強化学習(RL)では、時間差(TD)誤差がドーパミンニューロンの発火速度と関連していることが知られている。
各ドーパミンニューロンは均一に振る舞わないが、それぞれが楽観的あるいは悲観的な方法でTDエラーに反応し、分布RLの一種として解釈される。
このような生物学的データを説明するために、正および負のTD誤差に対して非対称な学習率を持つヒューリスティックモデルも設計されている。
しかし、このヒューリスティックモデルは理論上は根拠がなく、RLアルゴリズムとして機能するかどうかは不明である。
そこで本研究では,制御を推論として導いた楽観主義と悲観主義を用いた理論的基礎モデルを提案する。
アンサンブル学習と組み合わせて、定期的に導入される楽観主義と悲観主義から、批評家としての分布値関数を推定する。
中央値に基づいて、アクターのポリシーが改善される。
このアルゴリズムはDROP(distributional and regular optimism and pessimism)と呼ばれ、動的タスクで比較される。
ヒューリスティックモデルでは学習成績は低かったが,DROPは全タスクにおいて高い一般性を示した。
言い換えれば、DROPは楽観主義と悲観主義の潜在的貢献を引き出すことのできる新しいモデルであることが示唆された。
関連論文リスト
- Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases [76.9127853906115]
拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。
本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。
実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
論文 参考訳(メタデータ) (2024-02-13T15:55:41Z) - Human Trajectory Forecasting with Explainable Behavioral Uncertainty [63.62824628085961]
人間の軌道予測は人間の行動を理解し予測し、社会ロボットから自動運転車への応用を可能にする。
モデルフリー手法は予測精度が優れているが説明可能性に欠ける一方、モデルベース手法は説明可能性を提供するが、よく予測できない。
BNSP-SFMは,11種類の最先端手法と比較して,予測精度を最大50%向上することを示す。
論文 参考訳(メタデータ) (2023-07-04T16:45:21Z) - Exploration in Model-based Reinforcement Learning with Randomized Reward [40.87376174638752]
我々は、カーネル化線形レギュレータ(KNR)モデルの下では、報酬ランダム化が部分的最適化を保証することを示す。
さらに、我々の理論を一般化関数近似に拡張し、報酬ランダム化の条件を特定して、確実に効率的に探索する。
論文 参考訳(メタデータ) (2023-01-09T01:50:55Z) - Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning
Approach [6.7826352751791985]
本稿では,オフライン環境における最適動的処理系のための,悲観的に基づく新しいベイズ学習法を提案する。
我々は悲観主義の原理をトンプソンサンプリングとベイズ機械学習と統合し、悲観主義の度合いを最適化する。
本研究では,高効率かつスケーラブルな変分推論に基づく計算アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-26T02:14:10Z) - The Boltzmann Policy Distribution: Accounting for Systematic
Suboptimality in Human Models [5.736353542430439]
本稿では,Boltzmann Policy Distribution(BPD)を紹介する。
BPDはベイズ推論を介して適応し、1回のエピソードで人間の行動を観察することで系統的な偏差を捉える。
我々は,BPDが人間行動の予測と人間-AI協調を可能にすると同時に,模倣学習に基づく人間モデルも可能であることを示す。
論文 参考訳(メタデータ) (2022-04-22T15:26:25Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - Towards Tractable Optimism in Model-Based Reinforcement Learning [37.51073590932658]
成功させるためには、楽観的なRLアルゴリズムは真の値関数(最適化)を過大に見積もる必要があるが、不正確な(推定誤差)ほどではない。
我々は,これらのスケーラブルな楽観的モデルベースアルゴリズムを,トラクタブルノイズ拡張MDPの解法として再解釈する。
この誤差が低減された場合、楽観的なモデルベースRLアルゴリズムは、連続制御問題における最先端性能と一致することを示す。
論文 参考訳(メタデータ) (2020-06-21T20:53:19Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。