論文の概要: Mixing Probabilistic and non-Probabilistic Objectives in Markov Decision
Processes
- arxiv url: http://arxiv.org/abs/2004.13789v1
- Date: Tue, 28 Apr 2020 19:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 23:45:37.518745
- Title: Mixing Probabilistic and non-Probabilistic Objectives in Markov Decision
Processes
- Title(参考訳): マルコフ決定過程における確率的および非確率的目標の混合
- Authors: Rapha\"el Berthon, Shibashis Guha, Jean-Fran\c{c}ois Raskin
- Abstract要約: 目的のブール組合せに対するMDPにおける戦略の存在を決定するアルゴリズムを検討する。
これらの目的は、確実に、ほぼ確実に、存在するか、あるいはゼロでない確率で強制される必要があるオメガ正則の性質である。
- 参考スコア(独自算出の注目度): 0.3867363075280543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider algorithms to decide the existence of strategies
in MDPs for Boolean combinations of objectives. These objectives are
omega-regular properties that need to be enforced either surely, almost surely,
existentially, or with non-zero probability. In this setting, relevant
strategies are randomized infinite memory strategies: both infinite memory and
randomization may be needed to play optimally. We provide algorithms to solve
the general case of Boolean combinations and we also investigate relevant
subcases. We further report on complexity bounds for these problems.
- Abstract(参考訳): 本稿では,目的のブール組合せに対するMDPにおける戦略の存在を決定するアルゴリズムを検討する。
これらの目的はオメガレギュラーな性質であり、確実に、ほぼ確実に、またはゼロでない確率で強制される必要がある。
この設定では、関連する戦略はランダム化された無限記憶戦略である: 無限記憶とランダム化の両方が最適にプレイするために必要となる。
ブール組合せの一般ケースを解くアルゴリズムを提供し、関連するサブケースについても検討する。
これらの問題に対する複雑性境界についても報告する。
関連論文リスト
- Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。
割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。
本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T02:33:50Z) - A unified consensus-based parallel ADMM algorithm for high-dimensional
regression with combined regularizations [3.280169909938912]
並列交互乗算器 (ADMM) は大規模分散データセットの処理に有効であることが広く認識されている。
提案アルゴリズムは,財務事例の信頼性,安定性,スケーラビリティを示す。
論文 参考訳(メタデータ) (2023-11-21T03:30:38Z) - Beyond Average Return in Markov Decision Processes [49.157108194438635]
我々は、分散強化学習(DistRL)のより一般的なフレームワークであっても、一般化された手段のみが正確に最適化可能であることを証明した。
得られた推定器の誤差境界を提供し、このアプローチの潜在的な可能性とその限界について議論する。
論文 参考訳(メタデータ) (2023-10-31T08:36:41Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Multi-Phase Relaxation Labeling for Square Jigsaw Puzzle Solving [73.58829980121767]
本稿では,大域最適化に基づく二乗ジグソーパズルの解法を提案する。
この手法は完全に自動化されており、事前情報を前提とせず、未知または未知のピースオリエンテーションでパズルを扱うことができる。
論文 参考訳(メタデータ) (2023-03-26T18:53:51Z) - Margin theory for the scenario-based approach to robust optimization in
high dimension [0.0]
本稿では、ロバストな最適化のためのシナリオアプローチを扱う。
これは、問題の不確実性によって引き起こされる可能性のある無限個の制約のランダムサンプリングに依存する。
論文 参考訳(メタデータ) (2023-03-07T13:33:46Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - A stochastic approach to handle knapsack problems in the creation of
ensembles [0.0]
会員の総費用に対する追加の制約の下でアンサンブルの作成について検討する。
このタスクはknapsack問題として定式化することができ、そこではエネルギーはいくつかのアグリゲーションルールによって形成されるアンサンブル精度である。
本稿では,エネルギーを部材の合同確率関数とみなす新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T08:06:34Z) - Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。
我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。
GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文 参考訳(メタデータ) (2020-02-28T09:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。