論文の概要: Reinforcement Learning with Delayed, Composite, and Partially Anonymous
Reward
- arxiv url: http://arxiv.org/abs/2305.02527v1
- Date: Thu, 4 May 2023 03:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 17:06:33.673499
- Title: Reinforcement Learning with Delayed, Composite, and Partially Anonymous
Reward
- Title(参考訳): 遅延・複合・部分匿名報酬による強化学習
- Authors: Washim Uddin Mondal and Vaneet Aggarwal
- Abstract要約: 無限水平平均報酬マルコフ決定過程 (MDP) を, 遅延, 複合, 部分的に匿名の報酬フィードバックを用いて検討した。
報酬の遅延と合成性は、与えられた状態におけるアクションの結果として生成された報酬を、異なるコンポーネントに分割することを意味する。
- 参考スコア(独自算出の注目度): 39.12903814606534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate an infinite-horizon average reward Markov Decision Process
(MDP) with delayed, composite, and partially anonymous reward feedback. The
delay and compositeness of rewards mean that rewards generated as a result of
taking an action at a given state are fragmented into different components, and
they are sequentially realized at delayed time instances. The partial anonymity
attribute implies that a learner, for each state, only observes the aggregate
of past reward components generated as a result of different actions taken at
that state, but realized at the observation instance. We propose an algorithm
named $\mathrm{DUCRL2}$ to obtain a near-optimal policy for this setting and
show that it achieves a regret bound of $\tilde{\mathcal{O}}\left(DS\sqrt{AT} +
d (SA)^3\right)$ where $S$ and $A$ are the sizes of the state and action
spaces, respectively, $D$ is the diameter of the MDP, $d$ is a parameter upper
bounded by the maximum reward delay, and $T$ denotes the time horizon. This
demonstrates the optimality of the bound in the order of $T$, and an additive
impact of the delay.
- Abstract(参考訳): 無限水平平均報酬マルコフ決定過程 (MDP) を, 遅延, 複合, 部分的に匿名の報酬フィードバックを用いて検討した。
報酬の遅れと複合性は、与えられた状態におけるアクションの結果として生じる報酬が、異なるコンポーネントに断片化され、遅延した時間インスタンスで順次実現されることを意味する。
部分匿名属性は、学習者が各状態に対して、その状態において異なるアクションによって生成された過去の報酬成分の集合のみを観察するが、観察インスタンスで実現されることを意味する。
提案するアルゴリズムは$\mathrm{DUCRL2}$と名づけられたアルゴリズムで、この設定に最適に近いポリシーを得られることを示し、$\tilde{\mathcal{O}}\left(DS\sqrt{AT} + d (SA)^3\right)$で、$S$と$A$は状態と行動空間のサイズであり、$D$はMDPの直径、$d$は最大報酬遅延によって上限付けられたパラメータであり、$T$は時間地平線を表す。
これは、バウンドが$t$の順に最適であることと遅延の付加的な影響を示している。
関連論文リスト
- Communication-Constrained Bandits under Additive Gaussian Noise [111.06688156723018]
クライアントが学習者にコミュニケーション制約のあるフィードバックを提供する分散マルチアームバンディットについて検討する。
我々は、この下限を小さな加法係数にマッチさせるマルチフェーズ帯域幅アルゴリズム、$mathtUEtext-UCB++$を提案する。
論文 参考訳(メタデータ) (2023-04-25T09:31:20Z) - Reinforcement Learning in a Birth and Death Process: Breaking the
Dependence on the State Space [0.0]
我々は、出生・死亡構造を有するMDPにおける未報告の強化学習の後悔を再考する。
本研究の結果から,従来の学習アルゴリズム sc Ucrl2 のやや遅れたバージョンに対する後悔は,実際には $tildemathcalO(sqrtEAT)$ で表される。
論文 参考訳(メタデータ) (2023-02-21T13:28:37Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive
Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。
AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。
また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文 参考訳(メタデータ) (2021-02-09T07:46:34Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。