論文の概要: Bootstrapping Expectiles in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.04081v1
- Date: Thu, 6 Jun 2024 13:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:40:14.396945
- Title: Bootstrapping Expectiles in Reinforcement Learning
- Title(参考訳): 強化学習におけるブートストラップ期待
- Authors: Pierre Clavier, Emmanuel Rachelson, Erwan Le Pennec, Matthieu Geist,
- Abstract要約: 多くの古典的強化学習(RL)アルゴリズムは、次の状態への期待を含むベルマン演算子に依存している。
実際にこれは、$L$損失を、批評家にとってより一般的な期待損失に置き換えることによって、非常に簡単にできる。
過大評価問題に対して,提案手法は古典的ツインクリティカルよりも優れた結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 25.793702194455772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many classic Reinforcement Learning (RL) algorithms rely on a Bellman operator, which involves an expectation over the next states, leading to the concept of bootstrapping. To introduce a form of pessimism, we propose to replace this expectation with an expectile. In practice, this can be very simply done by replacing the $L_2$ loss with a more general expectile loss for the critic. Introducing pessimism in RL is desirable for various reasons, such as tackling the overestimation problem (for which classic solutions are double Q-learning or the twin-critic approach of TD3) or robust RL (where transitions are adversarial). We study empirically these two cases. For the overestimation problem, we show that the proposed approach, ExpectRL, provides better results than a classic twin-critic. On robust RL benchmarks, involving changes of the environment, we show that our approach is more robust than classic RL algorithms. We also introduce a variation of ExpectRL combined with domain randomization which is competitive with state-of-the-art robust RL agents. Eventually, we also extend \ExpectRL with a mechanism for choosing automatically the expectile value, that is the degree of pessimism
- Abstract(参考訳): 多くの古典的強化学習(RL)アルゴリズムは、次の状態への期待を含むベルマン演算子に依存しており、ブートストラップの概念につながっている。
悲観論の形式を導入するために、我々はこの期待を期待に置き換えることを提案する。
実際にこれは、$L_2$損失を、批評家にとってより一般的な期待損失に置き換えることによって、非常に簡単にできる。
RLにおける悲観論の導入は、過大評価問題(古典的解が二重Q-ラーニングやTD3の双極批判的アプローチ)や頑健なRL(遷移が逆である)など、様々な理由から望ましい。
この2つの症例を経験的に研究する。
過大評価問題に対して,提案手法は古典的ツインクリティカルよりも優れた結果をもたらすことを示す。
環境変化を伴うロバストなRLベンチマークでは、我々のアプローチは古典的なRLアルゴリズムよりも堅牢であることを示す。
我々はまた、最先端のロバストなRLエージェントと競合するドメインランダム化と組み合わせたPre expectRLのバリエーションも導入する。
最終的には \ExpectRL も拡張して,期待値,すなわち悲観論の次数を自動的に選択する機構を持つ。
関連論文リスト
- DROP: Distributional and Regular Optimism and Pessimism for Reinforcement Learning [6.20048328543366]
本稿では,制御を推論として導いた楽観主義と悲観主義を用いた理論的基礎モデルを提案する。
モデルでは学習性能は低かったが,DROPは全タスクにおいて高い一般性を示した。
論文 参考訳(メタデータ) (2024-10-22T23:14:09Z) - Reinforcement Learning with Quasi-Hyperbolic Discounting [2.3999111269325266]
準双曲(QH)割引は、このバイアスをモデル化するための単純な代替手段である。
我々の研究は、強化学習の実践的応用を著しく前進させる。
論文 参考訳(メタデータ) (2024-09-16T06:00:42Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Learning To Dive In Branch And Bound [95.13209326119153]
グラフニューラルネットワークを用いて特定の潜水構造を学習するためのL2Diveを提案する。
我々は、変数の割り当てを予測するために生成モデルを訓練し、線形プログラムの双対性を利用して潜水決定を行う。
論文 参考訳(メタデータ) (2023-01-24T12:01:45Z) - Lookback for Learning to Branch [77.32867454769936]
Bipartite Graph Neural Networks (GNN) は、ディープラーニングに基づくMixed-Integer Linear Program (MILP) の重要コンポーネントであることが示されている。
近年の研究では、分岐とバウンド(B&B)の解法における分岐(可変選択)を置き換える上で、そのようなGNNの有効性が実証されている。
論文 参考訳(メタデータ) (2022-06-30T02:33:32Z) - Bellman-consistent Pessimism for Offline Reinforcement Learning [46.97637726255375]
一般関数近似に対するベルマン一貫性悲観論の概念を導入する。
我々の理論的な保証は、探索的な設定において標準としてベルマン閉性を必要とするだけである。
論文 参考訳(メタデータ) (2021-06-13T05:50:36Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Faster Game Solving via Predictive Blackwell Approachability: Connecting
Regret Matching and Mirror Descent [119.5481797273995]
FTRL (Follow-the-regularized-leader) とオンラインミラー降下 (OMD) は、オンライン凸最適化における最も一般的な後悔の最小化手法である。
RMとRM+はFTRLとOMDをそれぞれ実行し、ブラックウェルのアプローチ性ゲームにおいて、ハーフスペースを常に強制的に選択するアルゴリズムであることを示す。
18の共通ゼロサムワイドフォームベンチマークゲームを対象とした実験では,予測的RM+と反ファクト的後悔の最小化が,最速のアルゴリズムよりもはるかに高速に収束することを示した。
論文 参考訳(メタデータ) (2020-07-28T16:49:55Z) - Towards Tractable Optimism in Model-Based Reinforcement Learning [37.51073590932658]
成功させるためには、楽観的なRLアルゴリズムは真の値関数(最適化)を過大に見積もる必要があるが、不正確な(推定誤差)ほどではない。
我々は,これらのスケーラブルな楽観的モデルベースアルゴリズムを,トラクタブルノイズ拡張MDPの解法として再解釈する。
この誤差が低減された場合、楽観的なモデルベースRLアルゴリズムは、連続制御問題における最先端性能と一致することを示す。
論文 参考訳(メタデータ) (2020-06-21T20:53:19Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。