論文の概要: Strategy Complexity of Mean Payoff, Total Payoff and Point Payoff
Objectives in Countable MDPs
- arxiv url: http://arxiv.org/abs/2107.03287v1
- Date: Thu, 1 Jul 2021 21:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-11 11:42:46.954036
- Title: Strategy Complexity of Mean Payoff, Total Payoff and Point Payoff
Objectives in Countable MDPs
- Title(参考訳): MDPにおける平均ペイオフ・総ペイオフ・ポイントペイオフ目標の戦略複雑性
- Authors: Richard Mayr, Eric Munday
- Abstract要約: 実数値遷移報酬を用いた無数無限マルコフ決定過程(MDP)について検討する。
それぞれのペイオフタイプに対して、$liminf$が非負である確率を最大化することが目的である。
記憶のない決定論的戦略で勝つ場合もあり、ステップカウンタ、報酬カウンタ、あるいはその両方を必要とする場合もある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study countably infinite Markov decision processes (MDPs) with real-valued
transition rewards. Every infinite run induces the following sequences of
payoffs: 1. Point payoff (the sequence of directly seen transition rewards), 2.
Total payoff (the sequence of the sums of all rewards so far), and 3. Mean
payoff. For each payoff type, the objective is to maximize the probability that
the $\liminf$ is non-negative. We establish the complete picture of the
strategy complexity of these objectives, i.e., how much memory is necessary and
sufficient for $\varepsilon$-optimal (resp. optimal) strategies. Some cases can
be won with memoryless deterministic strategies, while others require a step
counter, a reward counter, or both.
- Abstract(参考訳): 実数値遷移報酬を用いた無数のマルコフ決定過程(MDP)について検討する。
すべての無限ランは以下のペイオフの列を誘導する。
ポイントペイオフ(直接見られる遷移報酬のシーケンス)、2。
total payoff(これまでの全報酬の合計のシーケンス)と3。
平均的なペイオフ。
各ペイオフタイプについて、目的は$\liminf$ が非負である確率を最大化することである。
これらの目的の戦略複雑性の全体像、すなわち、$\varepsilon$-optimal (resp) に必要なメモリ量と十分なメモリ量を確立する。
最適な)戦略
記憶のない決定論的戦略で勝つ場合もあり、ステップカウンタ、報酬カウンタ、あるいはその両方を必要とする場合もある。
関連論文リスト
- Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Provably Efficient Offline Multi-agent Reinforcement Learning via
Strategy-wise Bonus [48.34563955829649]
本稿では,共同戦略の信頼区間を構築する戦略的な集中原理を提案する。
2人のプレイヤーによるゼロサムマルコフゲームの場合、戦略的なボーナスの凸性を利用して効率的なアルゴリズムを提案する。
すべてのアルゴリズムは、指定済みの戦略クラスである$Pi$を入力として取り、最良の戦略に近い戦略を$Pi$で出力することができる。
論文 参考訳(メタデータ) (2022-06-01T00:18:15Z) - Strategy Complexity of Point Payoff, Mean Payoff and Total Payoff
Objectives in Countable MDPs [0.0]
実数値遷移報酬を用いた無数無限マルコフ決定過程(MDP)について検討する。
それぞれのペイオフタイプに対して、$liminf$が非負である確率を最大化することが目的である。
記憶のない決定論的戦略で勝つ場合もあり、ステップカウンタ、報酬カウンタ、あるいはその両方を必要とする場合もある。
論文 参考訳(メタデータ) (2022-03-10T19:17:05Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - A Self-Penalizing Objective Function for Scalable Interaction Detection [2.208242292882514]
本研究では,変数間の相互作用を発見するための計算により,非パラメトリックな変数選択の問題に取り組む。
トリックは、メトリック学習目標と呼ばれるパラメトリック非パラメトリック依存度を最大化することである。
論文 参考訳(メタデータ) (2020-11-24T17:07:49Z) - Finite Continuum-Armed Bandits [0.0]
エージェントが$T$Ressourcesを持ち、より多くのアクションに割り当てる状況を考える。
エージェントの目標は、彼女の累積報酬を最大化することです。
論文 参考訳(メタデータ) (2020-10-23T08:48:45Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。