論文の概要: Probabilistic Planning with Preferences over Temporal Goals
- arxiv url: http://arxiv.org/abs/2103.14489v1
- Date: Fri, 26 Mar 2021 14:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:33:56.815660
- Title: Probabilistic Planning with Preferences over Temporal Goals
- Title(参考訳): 時間的目標を優先する確率的計画
- Authors: Jie Fu
- Abstract要約: 本稿では,時間目標に対する質的選好を規定する形式言語と,システムにおける選好に基づく計画手法を提案する。
自動理論モデルを用いて,提案した仕様は,各結果がサブゴールの時間列の集合を記述する場合の,異なる結果集合に対する嗜好を表現することができる。
我々は,可能な結果以上のプロセスが与えられた場合の選好満足度の価値を定義し,ラベル付きマルコフ決定過程における時間制約付き確率計画のためのアルゴリズムを開発する。
- 参考スコア(独自算出の注目度): 21.35365462532568
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a formal language for specifying qualitative preferences over
temporal goals and a preference-based planning method in stochastic systems.
Using automata-theoretic modeling, the proposed specification allows us to
express preferences over different sets of outcomes, where each outcome
describes a set of temporal sequences of subgoals. We define the value of
preference satisfaction given a stochastic process over possible outcomes and
develop an algorithm for time-constrained probabilistic planning in labeled
Markov decision processes where an agent aims to maximally satisfy its
preference formula within a pre-defined finite time duration. We present
experimental results using a stochastic gridworld example and discuss possible
extensions of the proposed preference model.
- Abstract(参考訳): 本稿では,時間目標に対する質的選好を定式化するための形式言語と,確率システムにおける選好に基づく計画法を提案する。
自動理論モデルを用いて,提案した仕様は,各結果がサブゴールの時間列の集合を記述する場合の,異なる結果集合に対する嗜好を表現することができる。
本研究では,確率的プロセスによる選好満足度値を定義し,予め定義された有限時間内に選好公式を最大化することを目的としたラベル付きマルコフ決定プロセスにおいて,時間制約付き確率計画のためのアルゴリズムを開発する。
確率的グリッドワールドの例を用いて実験結果を提示し,提案した選好モデルの拡張可能性について考察する。
関連論文リスト
- An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Preference-Based Planning in Stochastic Environments: From Partially-Ordered Temporal Goals to Most Preferred Policies [25.731912021122287]
マルコフ決定過程としてモデル化されたシステムは、時間的に拡張された一連の目標に対して部分的に順序づけられた選好を考慮に入れている。
部分的に順序づけられた選好を計画するために、時間的目標に対する選好をMDPの政策に対する選好にマッピングする順序理論を導入する。
順序付けの下で最も好まれるポリシーは、MDP内の有限経路上の非支配確率分布を誘導する。
論文 参考訳(メタデータ) (2024-03-27T02:46:09Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Differentiating Metropolis-Hastings to Optimize Intractable Densities [51.16801956665228]
我々はメトロポリス・ハスティングス検層の自動識別アルゴリズムを開発した。
難解な対象密度に対する期待値として表現された目的に対して勾配に基づく最適化を適用する。
論文 参考訳(メタデータ) (2023-06-13T17:56:02Z) - Probabilistic Planning with Prioritized Preferences over Temporal Logic
Objectives [26.180359884973566]
マルコフ決定過程(MDP)をモデルとした確率的環境における時間的計画に関する研究
本稿では,有限トレース上の線形時間論理を優先的に定性的選択する新しい仕様言語を提案する。
ユーザの好みに応じて期待される不満のスコアを最小化する最適ポリシーを定式化し、解き明かす。
論文 参考訳(メタデータ) (2023-04-23T13:03:27Z) - Probabilistic Planning with Partially Ordered Preferences over Temporal
Goals [22.77805882908817]
マルコフ決定過程(MDP)における計画計画について,時間的拡張目標よりも優先的に検討した。
本稿では、時間的に拡張された目標に対するユーザの好みを特定するために、決定論的有限オートマトンの一種である選好DFAを導入する。
構築された多目的MDPにおいて、選好仕様を前提とした弱確率的非支配ポリシーが最適であることを示す。
論文 参考訳(メタデータ) (2022-09-25T17:13:24Z) - Probabilistic Conformal Prediction Using Conditional Random Samples [73.26753677005331]
PCPは、不連続な予測セットによって対象変数を推定する予測推論アルゴリズムである。
効率的で、明示的または暗黙的な条件生成モデルと互換性がある。
論文 参考訳(メタデータ) (2022-06-14T03:58:03Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Sequential Learning-based IaaS Composition [0.11470070927586014]
時間条件優先ネットワーク(TempCP-net)に含まれる決定変数
時系列類似度尺度に基づくtextitk-d tree indexingを用いて、リクエストの集合のグローバル嗜好ランキングを算出する。
構成における要求の受け入れや拒否に要求の長さを適用する、オンポリシーに基づく逐次選択学習手法を設計する。
論文 参考訳(メタデータ) (2021-02-24T23:16:01Z) - Adaptive Sequential Design for a Single Time-Series [2.578242050187029]
期待される結果を最適化するために、設計の制御されたコンポーネントの最適かつ未知の選択を学習する。
我々は、時間とともに収集されたデータに基づいて、将来のタイムポイント実験にランダム化機構を適用する。
論文 参考訳(メタデータ) (2021-01-29T22:51:45Z) - Stochastic batch size for adaptive regularization in deep network
optimization [63.68104397173262]
ディープラーニングフレームワークにおける機械学習問題に適用可能な適応正規化を取り入れた一階最適化アルゴリズムを提案する。
一般的なベンチマークデータセットに適用した従来のネットワークモデルに基づく画像分類タスクを用いて,提案アルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2020-04-14T07:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。