論文の概要: Opportunistic Qualitative Planning in Stochastic Systems with Incomplete
Preferences over Reachability Objectives
- arxiv url: http://arxiv.org/abs/2210.01878v1
- Date: Tue, 4 Oct 2022 19:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 15:05:55.994003
- Title: Opportunistic Qualitative Planning in Stochastic Systems with Incomplete
Preferences over Reachability Objectives
- Title(参考訳): 到達可能性目標よりも不完全な選好をもつ確率システムにおける日和見的質的計画
- Authors: Abhishek N. Kulkarni and Jie Fu
- Abstract要約: 優先順位は、すべての制約が同時に満たされない場合に、どの目標/制約を満たすかを決定する上で重要な役割を果たします。
本稿では,SPIおよびSASI戦略を合成し,複数の逐次改善を実現するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 24.11353445650682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preferences play a key role in determining what goals/constraints to satisfy
when not all constraints can be satisfied simultaneously. In this paper, we
study how to synthesize preference satisfying plans in stochastic systems,
modeled as an MDP, given a (possibly incomplete) combinative preference model
over temporally extended goals. We start by introducing new semantics to
interpret preferences over infinite plays of the stochastic system. Then, we
introduce a new notion of improvement to enable comparison between two prefixes
of an infinite play. Based on this, we define two solution concepts called safe
and positively improving (SPI) and safe and almost-surely improving (SASI) that
enforce improvements with a positive probability and with probability one,
respectively. We construct a model called an improvement MDP, in which the
synthesis of SPI and SASI strategies that guarantee at least one improvement
reduces to computing positive and almost-sure winning strategies in an MDP. We
present an algorithm to synthesize the SPI and SASI strategies that induce
multiple sequential improvements. We demonstrate the proposed approach using a
robot motion planning problem.
- Abstract(参考訳): 優先順位は、すべての制約が同時に満たされない場合に、どの目標/制約を満たすかを決定する上で重要な役割を果たします。
本稿では,時間的に拡張された目標に対する(おそらく不完全な)組合せ的選好モデルから,確率的システムにおける選好満足プランの合成方法を検討する。
まず、確率システムの無限の再生に対する嗜好を解釈する新しい意味論を導入する。
次に,無限の遊びの2つの接頭辞の比較を可能にする新しい改良概念を提案する。
そこで本研究では,SPI(Safe and positively improve)とSASI(Bass and almost-surely improve)という,それぞれ正の確率で改善を強制する2つのソリューション概念を定義した。
我々は、改善MDPと呼ばれるモデルを構築し、少なくとも1つの改善を保証するSPIとSASI戦略の合成は、MDPにおける正およびほぼ確実な勝利戦略に還元される。
本稿では,SPIとSASIの戦略を合成し,複数の逐次改善を実現するアルゴリズムを提案する。
ロボットの動き計画問題を用いて提案手法を実証する。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Policy Optimization for Stochastic Shortest Path [43.2288319750466]
最短経路(SSP)問題に対する政策最適化について検討する。
本研究では,有限ホライゾンモデルを厳密に一般化した目標指向強化学習モデルを提案する。
ほとんどの設定において、我々のアルゴリズムは、ほぼ最適の後悔境界に達することが示されている。
論文 参考訳(メタデータ) (2022-02-07T16:25:14Z) - Improving Hyperparameter Optimization by Planning Ahead [3.8673630752805432]
本稿では,モデルに基づく強化学習の文脈内で定義された新しい伝達学習手法を提案する。
本稿では,シンプルなルックアヘッド戦略をポリシーとして用いたモデル予測制御法を提案する。
最新のHPOアルゴリズムと比較した3つのメタデータセット実験により,提案手法が全ベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2021-10-15T11:46:14Z) - PASTO: Strategic Parameter Optimization in Recommendation Systems --
Probabilistic is Better than Deterministic [33.174973495620215]
確率論的戦略パラメータ体系は, 単一の決定論的パラメータを求める標準的手法と比較して, より優れた価値が得られることを示す。
私たちのアプローチは、数億人の日々のユーザーを持つ人気のあるソーシャルネットワークプラットフォームに適用されます。
論文 参考訳(メタデータ) (2021-08-20T09:02:58Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Formal Controller Synthesis for Continuous-Space MDPs via Model-Free
Reinforcement Learning [1.0928470926399565]
連続空間マルコフ決定プロセス(MDP)のポリシーを合成する新しい強化学習手法を提案する。
この論文の重要な貢献は、有限のMDP上での強化学習に古典的な収束結果を活用することである。
本稿では,学習を高速化するために,新たな報酬形成手法を提案する。
論文 参考訳(メタデータ) (2020-03-02T08:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。