論文の概要: Markov Decision Processes with Time-Varying Geometric Discounting
- arxiv url: http://arxiv.org/abs/2307.10491v1
- Date: Wed, 19 Jul 2023 23:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 15:18:29.750030
- Title: Markov Decision Processes with Time-Varying Geometric Discounting
- Title(参考訳): 時間変動幾何ディスカウントを用いたマルコフ決定過程
- Authors: Jiarui Gan, Annika Hennes, Rupak Majumdar, Debmalya Mandal, Goran
Radanovic
- Abstract要約: 時間変化の割引係数を持つ無限水平MDPのモデルについて検討する。
アルゴリズムは$epsilon$-SPEを計算するために提示される。
- 参考スコア(独自算出の注目度): 18.281537633296466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Canonical models of Markov decision processes (MDPs) usually consider
geometric discounting based on a constant discount factor. While this standard
modeling approach has led to many elegant results, some recent studies indicate
the necessity of modeling time-varying discounting in certain applications.
This paper studies a model of infinite-horizon MDPs with time-varying discount
factors. We take a game-theoretic perspective -- whereby each time step is
treated as an independent decision maker with their own (fixed) discount factor
-- and we study the subgame perfect equilibrium (SPE) of the resulting game as
well as the related algorithmic problems. We present a constructive proof of
the existence of an SPE and demonstrate the EXPTIME-hardness of computing an
SPE. We also turn to the approximate notion of $\epsilon$-SPE and show that an
$\epsilon$-SPE exists under milder assumptions. An algorithm is presented to
compute an $\epsilon$-SPE, of which an upper bound of the time complexity, as a
function of the convergence property of the time-varying discount factor, is
provided.
- Abstract(参考訳): マルコフ決定過程(MDP)の標準モデルは、通常、一定の割引係数に基づいて幾何割引を考える。
この標準モデリングアプローチは多くのエレガントな結果をもたらしたが、最近の研究は特定のアプリケーションで時間変動ディスカウントをモデリングする必要があることを示している。
本稿では,時間的割引係数を持つ無限水平MDPのモデルについて検討する。
ゲーム理論的な視点 - 各ステップは独自の(固定された)ディスカウント係数を持つ独立した意思決定者として扱われる -- をとり、結果のゲームにおけるサブゲーム完全均衡(spe)と関連するアルゴリズム問題について検討する。
本稿では,SPE の存在の具体的証明と,SPE 計算における EXPTIME-hardness の実証を行う。
また、$\epsilon$-SPEという近似的な概念に目を向けると、$\epsilon$-SPEはより穏やかな仮定の下で存在することを示す。
時変割引係数の収束特性の関数として、時間複雑性の上限となる$\epsilon$-SPEを計算するアルゴリズムが提供される。
関連論文リスト
- Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。
最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。
我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文 参考訳(メタデータ) (2024-04-19T06:24:22Z) - Long-time Quantum Scrambling and Generalized Tensor Product Structures [0.0]
アウト・オブ・タイム・オーダー・コレレータ($mathcalA$-OTOC)の長期特性について検討する。
我々は解析的にも数値的にも$mathcalA$-OTOCの長時間平均を最小化する。
我々は、非共鳴ハミルトニアンの平均を最小化する代数の一般構造の証拠を予想し、提示する。
論文 参考訳(メタデータ) (2023-12-20T19:21:06Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - Reinforcement Learning with Non-Exponential Discounting [28.092095671829508]
本稿では,任意の割引関数に一般化した連続時間モデルに基づく強化学習の理論を提案する。
提案手法は, 逐次意思決定タスクにおける人的割引の分析方法を開くものである。
論文 参考訳(メタデータ) (2022-09-27T14:13:16Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。