論文の概要: Off-Policy Reinforcement Learning with High Dimensional Reward
- arxiv url: http://arxiv.org/abs/2408.07660v1
- Date: Wed, 14 Aug 2024 16:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 12:43:33.275871
- Title: Off-Policy Reinforcement Learning with High Dimensional Reward
- Title(参考訳): 高次元リワードを用いたオフポリティ強化学習
- Authors: Dong Neuck Lee, Michael R. Kosorok,
- Abstract要約: 分布RL(DRL)は、ユークリッド空間における分布ベルマン作用素とのリターンの分布を研究する。
報酬空間が無限次元可分バナッハ空間であっても、ベルマン作用素の縮約性を証明する。
従来の強化学習手法を用いて,これまで難解であった問題に対処する新しいDRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.7297899469367062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional off-policy reinforcement learning (RL) focuses on maximizing the expected return of scalar rewards. Distributional RL (DRL), in contrast, studies the distribution of returns with the distributional Bellman operator in a Euclidean space, leading to highly flexible choices for utility. This paper establishes robust theoretical foundations for DRL. We prove the contraction property of the Bellman operator even when the reward space is an infinite-dimensional separable Banach space. Furthermore, we demonstrate that the behavior of high- or infinite-dimensional returns can be effectively approximated using a lower-dimensional Euclidean space. Leveraging these theoretical insights, we propose a novel DRL algorithm that tackles problems which have been previously intractable using conventional reinforcement learning approaches.
- Abstract(参考訳): 従来の非政治強化学習(RL)は、スカラー報酬の最大化に焦点を当てている。
対照的に分布RL(DRL)は、ユークリッド空間における分布ベルマン作用素との戻り値の分布を研究し、有用性に対する高い柔軟な選択をもたらす。
本稿ではDRLの堅牢な理論的基礎を確立する。
報酬空間が無限次元可分バナッハ空間であっても、ベルマン作用素の縮約性を証明する。
さらに,高次元あるいは無限次元の戻り値の挙動を,低次元ユークリッド空間を用いて効果的に近似できることを示した。
これらの理論的知見を活かし、従来の強化学習手法を用いてこれまで難解であった問題に対処する新しいDRLアルゴリズムを提案する。
関連論文リスト
- More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Hyperbolic Deep Reinforcement Learning [8.983647543608226]
双曲空間における潜在表現をモデル化する深層強化学習アルゴリズムを提案する。
Procgen と Atari 100K ベンチマークで一般的なオンライン RL アルゴリズムに適用することで,我々のフレームワークを実証的に検証する。
論文 参考訳(メタデータ) (2022-10-04T12:03:04Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Reinforcement Learning in Factored Action Spaces using Tensor
Decompositions [92.05556163518999]
本稿では, テンソル分解を用いた大規模因子化行動空間における強化学習(RL)のための新しい解を提案する。
我々は,協調型マルチエージェント強化学習シナリオを模範として用いた。
論文 参考訳(メタデータ) (2021-10-27T15:49:52Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Cross-Trajectory Representation Learning for Zero-Shot Generalization in
RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。
この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。
本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文 参考訳(メタデータ) (2021-06-04T00:43:10Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。