論文の概要: Probabilistic Planning with Partially Ordered Preferences over Temporal
Goals
- arxiv url: http://arxiv.org/abs/2209.12267v1
- Date: Sun, 25 Sep 2022 17:13:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 17:08:32.423076
- Title: Probabilistic Planning with Partially Ordered Preferences over Temporal
Goals
- Title(参考訳): 時間的目標に対する部分順序予測による確率的計画法
- Authors: Hazhar Rahmani, Abhishek N. Kulkarni, and Jie Fu
- Abstract要約: マルコフ決定過程(MDP)における計画計画について,時間的拡張目標よりも優先的に検討した。
本稿では、時間的に拡張された目標に対するユーザの好みを特定するために、決定論的有限オートマトンの一種である選好DFAを導入する。
構築された多目的MDPにおいて、選好仕様を前提とした弱確率的非支配ポリシーが最適であることを示す。
- 参考スコア(独自算出の注目度): 22.77805882908817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study planning in stochastic systems, modeled as Markov
decision processes (MDPs), with preferences over temporally extended goals.
Prior work on temporal planning with preferences assumes that the user
preferences form a total order, meaning that every pair of outcomes are
comparable with each other. In this work, we consider the case where the
preferences over possible outcomes are a partial order rather than a total
order. We first introduce a variant of deterministic finite automaton, referred
to as a preference DFA, for specifying the user's preferences over temporally
extended goals. Based on the order theory, we translate the preference DFA to a
preference relation over policies for probabilistic planning in a labeled MDP.
In this treatment, a most preferred policy induces a weak-stochastic
nondominated probability distribution over the finite paths in the MDP. The
proposed planning algorithm hinges on the construction of a multi-objective
MDP. We prove that a weak-stochastic nondominated policy given the preference
specification is Pareto-optimal in the constructed multi-objective MDP, and
vice versa. Throughout the paper, we employ a running example to demonstrate
the proposed preference specification and solution approaches. We show the
efficacy of our algorithm using the example with detailed analysis, and then
discuss possible future directions.
- Abstract(参考訳): 本稿では,マルコフ決定過程(MDP)をモデル化した確率的システムの計画について,時間的拡張目標よりも優先的に検討する。
選好による時間計画の事前作業は、ユーザの選好が総順序を形成することを前提としており、これはすべての結果が互いに匹敵することを意味する。
本研究では,可能な結果に対する選好が全体順序ではなく部分順序である場合について考察する。
まず、時間的に拡張された目標に対するユーザの好みを指定するために、優先DFAと呼ばれる決定論的有限オートマトンを導入する。
順序理論に基づいて、ラベル付きMDPにおける確率的計画政策に対する嗜好関係をDFAに翻訳する。
この処理において、最も好まれるポリシーは、MDP内の有限経路上の弱確率非支配確率分布を誘導する。
提案手法は多目的MDPの構築を前提としている。
提案手法は, 構築された多目的MDPにおいて, 優先仕様がPareto-Optimalであることを示す。
論文全体を通して、提案した選好仕様とソリューションアプローチを実例で示す。
本稿では,本アルゴリズムの有効性を詳細な分析で示し,今後の方向性について論じる。
関連論文リスト
- Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - Probabilistic Planning with Prioritized Preferences over Temporal Logic
Objectives [26.180359884973566]
マルコフ決定過程(MDP)をモデルとした確率的環境における時間的計画に関する研究
本稿では,有限トレース上の線形時間論理を優先的に定性的選択する新しい仕様言語を提案する。
ユーザの好みに応じて期待される不満のスコアを最小化する最適ポリシーを定式化し、解き明かす。
論文 参考訳(メタデータ) (2023-04-23T13:03:27Z) - Opportunistic Qualitative Planning in Stochastic Systems with Incomplete
Preferences over Reachability Objectives [24.11353445650682]
優先順位は、すべての制約が同時に満たされない場合に、どの目標/制約を満たすかを決定する上で重要な役割を果たします。
本稿では,SPIおよびSASI戦略を合成し,複数の逐次改善を実現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T19:53:08Z) - Probabilistic Permutation Graph Search: Black-Box Optimization for
Fairness in Ranking [53.94413894017409]
本稿では、置換グラフの概念に基づいて、置換分布を表現する新しい方法を提案する。
PLと同様に、PPGと呼ばれる分布表現は、公正性のブラックボックス最適化に利用できる。
論文 参考訳(メタデータ) (2022-04-28T20:38:34Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Probabilistic Planning with Preferences over Temporal Goals [21.35365462532568]
本稿では,時間目標に対する質的選好を規定する形式言語と,システムにおける選好に基づく計画手法を提案する。
自動理論モデルを用いて,提案した仕様は,各結果がサブゴールの時間列の集合を記述する場合の,異なる結果集合に対する嗜好を表現することができる。
我々は,可能な結果以上のプロセスが与えられた場合の選好満足度の価値を定義し,ラベル付きマルコフ決定過程における時間制約付き確率計画のためのアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-03-26T14:26:40Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Adaptive Sequential Design for a Single Time-Series [2.578242050187029]
期待される結果を最適化するために、設計の制御されたコンポーネントの最適かつ未知の選択を学習する。
我々は、時間とともに収集されたデータに基づいて、将来のタイムポイント実験にランダム化機構を適用する。
論文 参考訳(メタデータ) (2021-01-29T22:51:45Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。