論文の概要: Maximum Reward Formulation In Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.03744v2
- Date: Tue, 19 Dec 2023 01:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 03:47:51.665889
- Title: Maximum Reward Formulation In Reinforcement Learning
- Title(参考訳): 強化学習における最大報酬定式化
- Authors: Sai Krishna Gottipati, Yashaswi Pathak, Rohan Nuttall, Sahir, Raviteja
Chunduru, Ahmed Touati, Sriram Ganapathi Subramanian, Matthew E. Taylor,
Sarath Chandar
- Abstract要約: 軌道に沿って最大報酬を最大化する目的関数を開発する。
ベルマン方程式の新たな関数形式を導出し、対応するベルマン作用素を導入し、収束の証明を与える。
我々は、現実世界の薬物発見パイプラインを模倣する分子生成の課題について、最先端の結果を得る。
- 参考スコア(独自算出の注目度): 19.186010954419242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) algorithms typically deal with maximizing the
expected cumulative return (discounted or undiscounted, finite or infinite
horizon). However, several crucial applications in the real world, such as drug
discovery, do not fit within this framework because an RL agent only needs to
identify states (molecules) that achieve the highest reward within a trajectory
and does not need to optimize for the expected cumulative return. In this work,
we formulate an objective function to maximize the expected maximum reward
along a trajectory, derive a novel functional form of the Bellman equation,
introduce the corresponding Bellman operators, and provide a proof of
convergence. Using this formulation, we achieve state-of-the-art results on the
task of molecule generation that mimics a real-world drug discovery pipeline.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)アルゴリズムは一般的に、期待累積戻り(カウント、未カウント、有限、無限水平)を最大化する。
しかし、薬物発見のような現実世界におけるいくつかの重要な応用はこの枠組みに適合しない、なぜなら、RLエージェントは軌道内で最も高い報酬を得る状態(分子)を識別するだけで、期待される累積リターンのために最適化する必要がないからである。
本研究では、軌道に沿った最大報酬を最大化する目的関数を定式化し、ベルマン方程式の新たな関数形式を導出し、対応するベルマン作用素を導入し、収束の証明を与える。
この定式化を用いて, 現実世界の創薬パイプラインを模倣した分子生成の課題について, 最先端の結果を得る。
関連論文リスト
- Generalized Rényi entropy accumulation theorem and generalized quantum probability estimation [0.0]
エントロピー蓄積定理は、多くのデバイス依存およびデバイス非依存の暗号プロトコルのセキュリティ解析において強力なツールである。
Affine min-tradeoff関数の構築に依存しており、実際に最適に構築することはしばしば困難である。
新たにエントロピー蓄積境界が導出され,有限サイズ性能が著しく向上した。
論文 参考訳(メタデータ) (2024-05-09T17:11:00Z) - A Novel Variational Lower Bound for Inverse Reinforcement Learning [5.370126167091961]
逆強化学習(IRL)は、専門家の軌道から報酬関数を学習しようとする。
IRL(VLB-IRL)のための新しい変分下界について述べる。
本手法は,学習した報酬関数の下で報酬関数とポリシーを同時に学習する。
論文 参考訳(メタデータ) (2023-11-07T03:50:43Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - On Reward-Free Reinforcement Learning with Linear Function Approximation [144.4210285338698]
Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
論文 参考訳(メタデータ) (2020-06-19T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。