論文の概要: Belief-State Query Policies for User-Aligned POMDPs
- arxiv url: http://arxiv.org/abs/2405.15907v2
- Date: Tue, 15 Apr 2025 17:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:08:07.629179
- Title: Belief-State Query Policies for User-Aligned POMDPs
- Title(参考訳): ユーザアライズされたPOMDPに対する状態問合せポリシー
- Authors: Daniel Bramblett, Siddharth Srivastava,
- Abstract要約: 本稿では,エージェントの動作に対するユーザの制約や嗜好を部分的に観察可能な環境で表現するための新しい枠組みを提案する。
このような制約を初めて公式に解析し、パラメータ化されたBSQポリシーの期待されるコスト関数w.r.tはそのパラメータが凸ではないことを証明した。
この理論的な結果から, gPOMDPエージェントの動作を保証されたユーザアライメントで最適化するアルゴリズムが誕生した。
- 参考スコア(独自算出の注目度): 18.821166966365315
- License:
- Abstract: Planning in real-world settings often entails addressing partial observability while aligning with users' requirements. We present a novel framework for expressing users' constraints and preferences about agent behavior in a partially observable setting using parameterized belief-state query (BSQ) policies in the setting of goal-oriented partially observable Markov decision processes (gPOMDPs). We present the first formal analysis of such constraints and prove that while the expected cost function of a parameterized BSQ policy w.r.t its parameters is not convex, it is piecewise constant and yields an implicit discrete parameter search space that is finite for finite horizons. This theoretical result leads to novel algorithms that optimize gPOMDP agent behavior with guaranteed user alignment. Analysis proves that our algorithms converge to the optimal user-aligned behavior in the limit. Empirical results show that parameterized BSQ policies provide a computationally feasible approach for user-aligned planning in partially observable settings.
- Abstract(参考訳): 現実の環境での計画では、ユーザーの要求に合致しながら部分的な可観測性に対処する必要があることが多い。
本稿では、目標指向の部分的に観測可能なマルコフ決定プロセス(gPOMDPs)の設定において、パラメータ化された信念状態クエリ(BSQ)ポリシーを用いて、部分的に観察可能な設定において、エージェントの動作に関するユーザの制約と嗜好を表現する新しいフレームワークを提案する。
このような制約を初めて形式的に解析し、パラメータ化されたBSQポリシーの期待コスト関数 w.r. はそのパラメータは凸ではないが、断片的に定数であり、有限地平線に対して有限な暗黙的な離散パラメータ探索空間が得られることを証明した。
この理論的な結果から, gPOMDPエージェントの動作を保証されたユーザアライメントで最適化するアルゴリズムが誕生した。
分析により,アルゴリズムが限界における最適なユーザアライメント行動に収束していることが判明した。
実験結果から,パラメータ化されたBSQポリシは,部分的に観測可能な環境下でのユーザアライメント計画において,計算的に実現可能なアプローチであることが示された。
関連論文リスト
- Robust Bayesian Optimization via Localized Online Conformal Prediction [37.549297668783254]
局所化オンライン共形予測に基づくベイズ最適化(LOCBO)を導入する。
LOCBOは局所オンライン共形予測(CP)によりGPモデルを校正する
観測対象関数を保留するLOCBOのイテレートについて理論的性能保証を行う。
論文 参考訳(メタデータ) (2024-11-26T12:45:54Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Variational Inference with Coverage Guarantees in Simulation-Based Inference [18.818573945984873]
コンフォーマル化補正ニューラル変分推論(CANVI)を提案する。
CANVIは各候補に基づいて共形予測器を構築し、予測効率と呼ばれる計量を用いて予測器を比較し、最も効率的な予測器を返す。
我々は,CANVIが生成する領域の予測効率の低い境界を証明し,その近似に基づいて,後部近似の品質と予測領域の予測効率の関係について検討する。
論文 参考訳(メタデータ) (2023-05-23T17:24:04Z) - The Choice of Noninformative Priors for Thompson Sampling in
Multiparameter Bandit Models [56.31310344616837]
トンプソンサンプリング(TS)は、様々な報酬モデルにまたがる理論的な保証によって支持される卓越した経験的性能で知られている。
本研究では,理論的理解の欠如のある新しいモデルを扱う際に,非形式的事前選択がTSの性能に与える影響について考察する。
論文 参考訳(メタデータ) (2023-02-28T08:42:42Z) - Bayesian Optimization over Discrete and Mixed Spaces via Probabilistic
Reparameterization [29.178417789839102]
離散的(そして潜在的に連続的な)設計パラメータのブラックボックス関数を最適化することは、科学や工学の応用においてユビキタスな問題である。
本稿では,確率分布に対する獲得関数(AF)の期待を最大化するために確率的再パラメータ化(PR)を提案する。
PRは最近の作業と補完的であり、複数の目的とブラックボックス制約を持った設定に自然に一般化します。
論文 参考訳(メタデータ) (2022-10-18T22:41:00Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Probabilistic Planning with Partially Ordered Preferences over Temporal
Goals [22.77805882908817]
マルコフ決定過程(MDP)における計画計画について,時間的拡張目標よりも優先的に検討した。
本稿では、時間的に拡張された目標に対するユーザの好みを特定するために、決定論的有限オートマトンの一種である選好DFAを導入する。
構築された多目的MDPにおいて、選好仕様を前提とした弱確率的非支配ポリシーが最適であることを示す。
論文 参考訳(メタデータ) (2022-09-25T17:13:24Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Theory-inspired Parameter Control Benchmarks for Dynamic Algorithm
Configuration [32.055812915031666]
与えられたサイズの最適パラメータポートフォリオの計算方法を示す。
可能な値のポートフォリオのみからパラメータを選択できる最適制御ポリシーを解析することにより、このベンチマークを拡張します。
動的アルゴリズム構成のためのDDQN強化学習手法の挙動を解析することにより,ベンチマークの有用性を実証する。
論文 参考訳(メタデータ) (2022-02-07T15:00:30Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。