論文の概要: Markov Decision Processes with Time-Varying Geometric Discounting
- arxiv url: http://arxiv.org/abs/2307.10491v1
- Date: Wed, 19 Jul 2023 23:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 15:18:29.750030
- Title: Markov Decision Processes with Time-Varying Geometric Discounting
- Title(参考訳): 時間変動幾何ディスカウントを用いたマルコフ決定過程
- Authors: Jiarui Gan, Annika Hennes, Rupak Majumdar, Debmalya Mandal, Goran
Radanovic
- Abstract要約: 時間変化の割引係数を持つ無限水平MDPのモデルについて検討する。
アルゴリズムは$epsilon$-SPEを計算するために提示される。
- 参考スコア(独自算出の注目度): 18.281537633296466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Canonical models of Markov decision processes (MDPs) usually consider
geometric discounting based on a constant discount factor. While this standard
modeling approach has led to many elegant results, some recent studies indicate
the necessity of modeling time-varying discounting in certain applications.
This paper studies a model of infinite-horizon MDPs with time-varying discount
factors. We take a game-theoretic perspective -- whereby each time step is
treated as an independent decision maker with their own (fixed) discount factor
-- and we study the subgame perfect equilibrium (SPE) of the resulting game as
well as the related algorithmic problems. We present a constructive proof of
the existence of an SPE and demonstrate the EXPTIME-hardness of computing an
SPE. We also turn to the approximate notion of $\epsilon$-SPE and show that an
$\epsilon$-SPE exists under milder assumptions. An algorithm is presented to
compute an $\epsilon$-SPE, of which an upper bound of the time complexity, as a
function of the convergence property of the time-varying discount factor, is
provided.
- Abstract(参考訳): マルコフ決定過程(MDP)の標準モデルは、通常、一定の割引係数に基づいて幾何割引を考える。
この標準モデリングアプローチは多くのエレガントな結果をもたらしたが、最近の研究は特定のアプリケーションで時間変動ディスカウントをモデリングする必要があることを示している。
本稿では,時間的割引係数を持つ無限水平MDPのモデルについて検討する。
ゲーム理論的な視点 - 各ステップは独自の(固定された)ディスカウント係数を持つ独立した意思決定者として扱われる -- をとり、結果のゲームにおけるサブゲーム完全均衡(spe)と関連するアルゴリズム問題について検討する。
本稿では,SPE の存在の具体的証明と,SPE 計算における EXPTIME-hardness の実証を行う。
また、$\epsilon$-SPEという近似的な概念に目を向けると、$\epsilon$-SPEはより穏やかな仮定の下で存在することを示す。
時変割引係数の収束特性の関数として、時間複雑性の上限となる$\epsilon$-SPEを計算するアルゴリズムが提供される。
関連論文リスト
- Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。
最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。
我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文 参考訳(メタデータ) (2024-04-19T06:24:22Z) - Long-time Quantum Scrambling and Generalized Tensor Product Structures [0.0]
アウト・オブ・タイム・オーダー・コレレータ($mathcalA$-OTOC)の長期特性について検討する。
我々は解析的にも数値的にも$mathcalA$-OTOCの長時間平均を最小化する。
我々は、非共鳴ハミルトニアンの平均を最小化する代数の一般構造の証拠を予想し、提示する。
論文 参考訳(メタデータ) (2023-12-20T19:21:06Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - Reinforcement Learning with Non-Exponential Discounting [28.092095671829508]
本稿では,任意の割引関数に一般化した連続時間モデルに基づく強化学習の理論を提案する。
提案手法は, 逐次意思決定タスクにおける人的割引の分析方法を開くものである。
論文 参考訳(メタデータ) (2022-09-27T14:13:16Z) - Quantum-based solution of time-dependent complex Riccati equations [0.0]
量子系の時間発展作用素(TEO)の解として、時間依存複素リカティ方程式(TDCRE)を示す。
量子系の継承対称性は、TDCREの簡単な検査によって認識することができる。
応用として、かつ整合性テストとして、Bloch-Riccati方程式の解析結果と比較する。
論文 参考訳(メタデータ) (2022-09-07T23:52:04Z) - ARISE: ApeRIodic SEmi-parametric Process for Efficient Markets without
Periodogram and Gaussianity Assumptions [91.3755431537592]
我々は、効率的な市場を調査するためのApeRI-miodic(ARISE)プロセスを提案する。
ARISEプロセスは、いくつかの既知のプロセスの無限サムとして定式化され、周期スペクトル推定を用いる。
実際に,実世界の市場の効率性を明らかにするために,ARISE関数を適用した。
論文 参考訳(メタデータ) (2021-11-08T03:36:06Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。