論文の概要: Belief-State Query Policies for Planning With Preferences Under Partial Observability
- arxiv url: http://arxiv.org/abs/2405.15907v1
- Date: Fri, 24 May 2024 20:04:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:10:19.864743
- Title: Belief-State Query Policies for Planning With Preferences Under Partial Observability
- Title(参考訳): 部分的可観測性の下での優先度を考慮した計画のための状態問合せ法
- Authors: Daniel Bramblett, Siddharth Srivastava,
- Abstract要約: 現実の環境での計画では、ユーザーの好みに合わせて部分的な可観測性に対処する必要があることが多い。
本稿では,パラメータ化信念状態クエリ(BSQ)を用いた部分的に観察可能な設定において,エージェント行動に対するユーザの嗜好を表現する新しいフレームワークを提案する。
BSQの選好は、部分的に観測可能な環境での選好を計画する上で、計算学的に実現可能なアプローチであることを示す。
- 参考スコア(独自算出の注目度): 18.821166966365315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning in real-world settings often entails addressing partial observability while aligning with users' preferences. We present a novel framework for expressing users' preferences about agent behavior in a partially observable setting using parameterized belief-state query (BSQ) preferences in the setting of goal-oriented partially observable Markov decision processes (gPOMDPs). We present the first formal analysis of such preferences and prove that while the expected value of a BSQ preference is not a convex function w.r.t its parameters, it is piecewise constant and yields an implicit discrete parameter search space that is finite for finite horizons. This theoretical result leads to novel algorithms that optimize gPOMDP agent behavior while guaranteeing user preference compliance. Theoretical analysis proves that our algorithms converge to the optimal preference-compliant behavior in the limit. Empirical results show that BSQ preferences provide a computationally feasible approach for planning with preferences in partially observable settings.
- Abstract(参考訳): 現実の環境での計画では、ユーザーの好みに合わせて部分的な可観測性に対処する必要があることが多い。
本稿では、目標指向の部分的に観測可能なマルコフ決定プロセス(gPOMDPs)の設定において、パラメータ化信念状態クエリ(BSQ)を用いた部分的に観察可能な設定において、エージェントの振る舞いに関するユーザの好みを表現する新しいフレームワークを提案する。
このような選好の最初の形式的解析を行い、BSQ選好の期待値が凸関数 w.r. のパラメータではないことを証明し、有限地平線に対して有限な暗黙的な離散パラメータ探索空間を得る。
この理論的な結果から, gPOMDPエージェントの動作を最適化し, ユーザの嗜好遵守を保証できるアルゴリズムが誕生した。
理論的解析により、我々のアルゴリズムは極限における最適な嗜好に従順な振る舞いに収束することが証明される。
実証的な結果から、BSQの選好は部分的に観測可能な環境での選好を計画する上で、計算的に実現可能なアプローチであることが示された。
関連論文リスト
- Robust Bayesian Optimization via Localized Online Conformal Prediction [37.549297668783254]
局所化オンライン共形予測に基づくベイズ最適化(LOCBO)を導入する。
LOCBOは局所オンライン共形予測(CP)によりGPモデルを校正する
観測対象関数を保留するLOCBOのイテレートについて理論的性能保証を行う。
論文 参考訳(メタデータ) (2024-11-26T12:45:54Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Variational Inference with Coverage Guarantees in Simulation-Based Inference [18.818573945984873]
コンフォーマル化補正ニューラル変分推論(CANVI)を提案する。
CANVIは各候補に基づいて共形予測器を構築し、予測効率と呼ばれる計量を用いて予測器を比較し、最も効率的な予測器を返す。
我々は,CANVIが生成する領域の予測効率の低い境界を証明し,その近似に基づいて,後部近似の品質と予測領域の予測効率の関係について検討する。
論文 参考訳(メタデータ) (2023-05-23T17:24:04Z) - The Choice of Noninformative Priors for Thompson Sampling in
Multiparameter Bandit Models [56.31310344616837]
トンプソンサンプリング(TS)は、様々な報酬モデルにまたがる理論的な保証によって支持される卓越した経験的性能で知られている。
本研究では,理論的理解の欠如のある新しいモデルを扱う際に,非形式的事前選択がTSの性能に与える影響について考察する。
論文 参考訳(メタデータ) (2023-02-28T08:42:42Z) - Bayesian Optimization over Discrete and Mixed Spaces via Probabilistic
Reparameterization [29.178417789839102]
離散的(そして潜在的に連続的な)設計パラメータのブラックボックス関数を最適化することは、科学や工学の応用においてユビキタスな問題である。
本稿では,確率分布に対する獲得関数(AF)の期待を最大化するために確率的再パラメータ化(PR)を提案する。
PRは最近の作業と補完的であり、複数の目的とブラックボックス制約を持った設定に自然に一般化します。
論文 参考訳(メタデータ) (2022-10-18T22:41:00Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Probabilistic Planning with Partially Ordered Preferences over Temporal
Goals [22.77805882908817]
マルコフ決定過程(MDP)における計画計画について,時間的拡張目標よりも優先的に検討した。
本稿では、時間的に拡張された目標に対するユーザの好みを特定するために、決定論的有限オートマトンの一種である選好DFAを導入する。
構築された多目的MDPにおいて、選好仕様を前提とした弱確率的非支配ポリシーが最適であることを示す。
論文 参考訳(メタデータ) (2022-09-25T17:13:24Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Theory-inspired Parameter Control Benchmarks for Dynamic Algorithm
Configuration [32.055812915031666]
与えられたサイズの最適パラメータポートフォリオの計算方法を示す。
可能な値のポートフォリオのみからパラメータを選択できる最適制御ポリシーを解析することにより、このベンチマークを拡張します。
動的アルゴリズム構成のためのDDQN強化学習手法の挙動を解析することにより,ベンチマークの有用性を実証する。
論文 参考訳(メタデータ) (2022-02-07T15:00:30Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。