論文の概要: Probabilistic Planning with Partially Ordered Preferences over Temporal
Goals
- arxiv url: http://arxiv.org/abs/2209.12267v1
- Date: Sun, 25 Sep 2022 17:13:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 17:08:32.423076
- Title: Probabilistic Planning with Partially Ordered Preferences over Temporal
Goals
- Title(参考訳): 時間的目標に対する部分順序予測による確率的計画法
- Authors: Hazhar Rahmani, Abhishek N. Kulkarni, and Jie Fu
- Abstract要約: マルコフ決定過程(MDP)における計画計画について,時間的拡張目標よりも優先的に検討した。
本稿では、時間的に拡張された目標に対するユーザの好みを特定するために、決定論的有限オートマトンの一種である選好DFAを導入する。
構築された多目的MDPにおいて、選好仕様を前提とした弱確率的非支配ポリシーが最適であることを示す。
- 参考スコア(独自算出の注目度): 22.77805882908817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study planning in stochastic systems, modeled as Markov
decision processes (MDPs), with preferences over temporally extended goals.
Prior work on temporal planning with preferences assumes that the user
preferences form a total order, meaning that every pair of outcomes are
comparable with each other. In this work, we consider the case where the
preferences over possible outcomes are a partial order rather than a total
order. We first introduce a variant of deterministic finite automaton, referred
to as a preference DFA, for specifying the user's preferences over temporally
extended goals. Based on the order theory, we translate the preference DFA to a
preference relation over policies for probabilistic planning in a labeled MDP.
In this treatment, a most preferred policy induces a weak-stochastic
nondominated probability distribution over the finite paths in the MDP. The
proposed planning algorithm hinges on the construction of a multi-objective
MDP. We prove that a weak-stochastic nondominated policy given the preference
specification is Pareto-optimal in the constructed multi-objective MDP, and
vice versa. Throughout the paper, we employ a running example to demonstrate
the proposed preference specification and solution approaches. We show the
efficacy of our algorithm using the example with detailed analysis, and then
discuss possible future directions.
- Abstract(参考訳): 本稿では,マルコフ決定過程(MDP)をモデル化した確率的システムの計画について,時間的拡張目標よりも優先的に検討する。
選好による時間計画の事前作業は、ユーザの選好が総順序を形成することを前提としており、これはすべての結果が互いに匹敵することを意味する。
本研究では,可能な結果に対する選好が全体順序ではなく部分順序である場合について考察する。
まず、時間的に拡張された目標に対するユーザの好みを指定するために、優先DFAと呼ばれる決定論的有限オートマトンを導入する。
順序理論に基づいて、ラベル付きMDPにおける確率的計画政策に対する嗜好関係をDFAに翻訳する。
この処理において、最も好まれるポリシーは、MDP内の有限経路上の弱確率非支配確率分布を誘導する。
提案手法は多目的MDPの構築を前提としている。
提案手法は, 構築された多目的MDPにおいて, 優先仕様がPareto-Optimalであることを示す。
論文全体を通して、提案した選好仕様とソリューションアプローチを実例で示す。
本稿では,本アルゴリズムの有効性を詳細な分析で示し,今後の方向性について論じる。
関連論文リスト
- VPO: Leveraging the Number of Votes in Preference Optimization [5.200545764106177]
本稿では,ユーザの投票データを活用し,多様な主観的嗜好に適合する手法を提案する。
我々は,議論を呼んでいる世代対と明らかな世代対を区別するために,双方の投票数を組み込んだVoteベースのPreference Optimizationフレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-30T10:39:34Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Belief-State Query Policies for Planning With Preferences Under Partial Observability [18.821166966365315]
現実の環境での計画では、ユーザーの好みに合わせて部分的な可観測性に対処する必要があることが多い。
本稿では,パラメータ化信念状態クエリ(BSQ)を用いた部分的に観察可能な設定において,エージェント行動に対するユーザの嗜好を表現する新しいフレームワークを提案する。
BSQの選好は、部分的に観測可能な環境での選好を計画する上で、計算学的に実現可能なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-05-24T20:04:51Z) - Preference-Based Planning in Stochastic Environments: From Partially-Ordered Temporal Goals to Most Preferred Policies [25.731912021122287]
マルコフ決定過程としてモデル化されたシステムは、時間的に拡張された一連の目標に対して部分的に順序づけられた選好を考慮に入れている。
部分的に順序づけられた選好を計画するために、時間的目標に対する選好をMDPの政策に対する選好にマッピングする順序理論を導入する。
順序付けの下で最も好まれるポリシーは、MDP内の有限経路上の非支配確率分布を誘導する。
論文 参考訳(メタデータ) (2024-03-27T02:46:09Z) - Probabilistic Planning with Prioritized Preferences over Temporal Logic
Objectives [26.180359884973566]
マルコフ決定過程(MDP)をモデルとした確率的環境における時間的計画に関する研究
本稿では,有限トレース上の線形時間論理を優先的に定性的選択する新しい仕様言語を提案する。
ユーザの好みに応じて期待される不満のスコアを最小化する最適ポリシーを定式化し、解き明かす。
論文 参考訳(メタデータ) (2023-04-23T13:03:27Z) - Probabilistic Permutation Graph Search: Black-Box Optimization for
Fairness in Ranking [53.94413894017409]
本稿では、置換グラフの概念に基づいて、置換分布を表現する新しい方法を提案する。
PLと同様に、PPGと呼ばれる分布表現は、公正性のブラックボックス最適化に利用できる。
論文 参考訳(メタデータ) (2022-04-28T20:38:34Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Probabilistic Planning with Preferences over Temporal Goals [21.35365462532568]
本稿では,時間目標に対する質的選好を規定する形式言語と,システムにおける選好に基づく計画手法を提案する。
自動理論モデルを用いて,提案した仕様は,各結果がサブゴールの時間列の集合を記述する場合の,異なる結果集合に対する嗜好を表現することができる。
我々は,可能な結果以上のプロセスが与えられた場合の選好満足度の価値を定義し,ラベル付きマルコフ決定過程における時間制約付き確率計画のためのアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-03-26T14:26:40Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。