論文の概要: Quantile Markov Decision Process
- arxiv url: http://arxiv.org/abs/1711.05788v5
- Date: Wed, 15 Oct 2025 17:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 16:37:10.212054
- Title: Quantile Markov Decision Process
- Title(参考訳): 量子マルコフ決定過程
- Authors: Xiaocheng Li, Huaiyang Zhong, Margaret L. Brandeau,
- Abstract要約: 我々はマルコフ決定過程(MDP)の累積報酬の量子化を最適化する問題を考える。
最適QMDP値関数を特徴付ける解析結果と、最適ポリシーを解くための動的プログラミングに基づくアルゴリズムを提案する。
患者が治療の潜在的な利益とリスクのバランスをとることを目的としたHIV治療開始問題において,本モデルの有効性について検討した。
- 参考スコア(独自算出の注目度): 6.401262949607737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of a traditional Markov decision process (MDP) is to maximize expected cumulative reward over a defined horizon (possibly infinite). In many applications, however, a decision maker may be interested in optimizing a specific quantile of the cumulative reward instead of its expectation. In this paper we consider the problem of optimizing the quantiles of the cumulative rewards of a Markov decision process (MDP), which we refer to as a quantile Markov decision process (QMDP). We provide analytical results characterizing the optimal QMDP value function and present a dynamic programming-based algorithm to solve for the optimal policy. The algorithm also extends to the MDP problem with a conditional value-at-risk (CVaR) objective. We illustrate the practical relevance of our model by evaluating it on an HIV treatment initiation problem, where patients aim to balance the potential benefits and risks of the treatment.
- Abstract(参考訳): 伝統的なマルコフ決定過程(MDP)の目標は、定義された地平線(おそらく無限)上で期待される累積報酬を最大化することである。
しかし、多くのアプリケーションにおいて、意思決定者は期待よりも累積報酬の特定の定量化を最適化することに関心があるかもしれない。
本稿では,マルコフ決定過程 (MDP) の累積報酬の量子化を最適化する問題を考察し,これを量子化マルコフ決定過程 (QMDP) と呼ぶ。
最適QMDP値関数を特徴付ける解析結果と、最適ポリシーを解くための動的プログラミングに基づくアルゴリズムを提案する。
このアルゴリズムは、条件付き値-リスク (CVaR) の目的によって、MDP問題にも拡張される。
患者が治療の潜在的な利益とリスクのバランスをとることを目的としたHIV治療開始問題において,本モデルの有効性について検討した。
関連論文リスト
- Quantizer Design for Finite Model Approximations, Model Learning, and Quantized Q-Learning for MDPs with Unbounded Spaces [0.0]
有限モデル近似誤差について, [Kara et. al. JMLR'23] で表される洗練された上界について述べる。
また、量子化Q-ラーニングと経験モデルラーニングにおける量化器設計の意義についても考察する。
論文 参考訳(メタデータ) (2025-10-05T20:39:52Z) - Recursive Reward Aggregation [60.51668865089082]
本稿では,報酬関数の変更を不要としたフレキシブルな行動アライメントのための代替手法を提案する。
マルコフ決定過程(MDP)の代数的視点を導入することにより、ベルマン方程式が報酬の生成と集約から自然に現れることを示す。
我々のアプローチは決定論的および決定論的設定の両方に適用され、価値に基づくアルゴリズムとアクター批判的アルゴリズムとシームレスに統合される。
論文 参考訳(メタデータ) (2025-07-11T12:37:20Z) - Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Beyond Average Return in Markov Decision Processes [49.157108194438635]
我々は、分散強化学習(DistRL)のより一般的なフレームワークであっても、一般化された手段のみが正確に最適化可能であることを証明した。
得られた推定器の誤差境界を提供し、このアプローチの潜在的な可能性とその限界について議論する。
論文 参考訳(メタデータ) (2023-10-31T08:36:41Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Model-Free Reinforcement Learning for Optimal Control of MarkovDecision
Processes Under Signal Temporal Logic Specifications [7.842869080999489]
有限水平マルコフ決定過程に対する最適ポリシーを求めるためのモデルフリー強化学習アルゴリズムを提案する。
本稿では,不確実性および性能目標下での複雑なミッションにおけるロボット動作計画の文脈におけるアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2021-09-27T22:44:55Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Correct-by-construction reach-avoid control of partially observable
linear stochastic systems [7.912008109232803]
離散時間線形時間不変系のリーチエイド制御のための頑健なフィードバックコントローラを定式化する。
問題は、必要となる証明状態の抽象化問題を満たすコントローラを計算することである。
論文 参考訳(メタデータ) (2021-03-03T13:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。