論文の概要: Bayesian learning for the stochastic shortest path problem
- arxiv url: http://arxiv.org/abs/2606.04845v1
- Date: Wed, 03 Jun 2026 13:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.773558
- Title: Bayesian learning for the stochastic shortest path problem
- Title(参考訳): 確率的最短経路問題に対するベイズ学習
- Authors: Chon Wai Ho, Sumeetpal S. Singh, Jiaqi Guo,
- Abstract要約: 我々は最適な意思決定戦略を学ぶためのベイズ的枠組みを開発する。
非現実的なモデリング仮定やアドホック近似には依存していません。
私たちは、我々のフレームワークが不確実性を忠実に定量化していることを示します。
- 参考スコア(独自算出の注目度): 7.552707920682579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential decision-making problems are often modelled as a Markov decision process (MDP). We focus on the stochastic shortest path (SSP) problem, which is an infinite-horizon undiscounted MDP with absorbing terminal states. We develop a Bayesian framework to learn the optimal decision strategy through interactions with the decision-making task. Specifically, we learn the optimal action-value function $Q^*$, but unlike many existing Bayesian approaches, we do not rely on unrealistic modelling assumptions and ad-hoc approximations. Our approach is to directly construct the posterior beliefs for $Q^*$ through Bellman's optimality equations. For deterministic rewards, we characterise the posterior as a distribution with a manifold density. To facilitate simpler inference, we relax the likelihood so that a Lebesgue density exists. The flip side is to create unidentifiability issues. Specifically, the relaxed posterior can have significant mass on improper decision rules, while the exact posterior will not. We also calculate the exact posterior probabilities for optimal action selections for the tabular parametrisation of $Q^*$, a Gaussian likelihood relaxation and a Gaussian prior, which is useful in benchmarking studies. Numerical studies on variants of the Deep Sea benchmark verify our findings. We demonstrate that our framework faithfully quantifies uncertainty and, compared to other temporal-difference-based Bayesian methodologies, is more data efficient. We conclude with recommendations for future work.
- Abstract(参考訳): 連続的な意思決定問題は、しばしばマルコフ決定プロセス(MDP)としてモデル化される。
終端状態を吸収する無限水平非カウント型MDPである確率的最短経路(SSP)問題に焦点をあてる。
我々は,意思決定タスクとのインタラクションを通じて最適な意思決定戦略を学ぶためのベイズ的枠組みを開発する。
具体的には、最適な作用値関数 $Q^*$ を学習するが、既存のベイズ的アプローチとは異なり、非現実的なモデリング仮定やアドホック近似には依存しない。
我々のアプローチはベルマンの最適性方程式を通して、$Q^*$に対する後続の信念を直接構築することである。
決定論的報酬については、後部を多様体密度の分布として特徴づける。
より単純な推論を容易にするために、ルベーグ密度が存在する確率を緩和する。
逆の側面は、識別不能な問題を生み出すことです。
具体的には、緩やかな後部は不適切な決定規則にかなりの質量を持つが、正確な後部はそうではない。
また,検定実験において有用である,Q^*$,ガウス確率緩和,ガウス先行の表層パラメトリションに対する最適行動選択の正確な後部確率を算出した。
Deep Seaベンチマークの変種に関する数値的研究は、我々の発見を検証している。
我々は,我々のフレームワークが不確実性を忠実に定量化し,他の時間差に基づくベイズ手法と比較して,よりデータ効率が高いことを示した。
私たちは将来の仕事の推薦で締めくくります。
関連論文リスト
- A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [61.86327960322782]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。
最適化に基づく最適化手法であるMERITを導入する。
MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文 参考訳(メタデータ) (2025-06-23T19:59:30Z) - Bayesian learning of the optimal action-value function in a Markov decision process [7.186805722297615]
私たちは、モデリングから推論、意思決定まで、完全なベイズ的なフレームワークを提供しています。
推論のために,緩やかな後部分布の列をサンプリングし,調整するために,適応的な連続モンテカルロアルゴリズムを提案する。
一般的に行われているが、マルチアームバンディット問題からのトンプソンサンプリングの一般化であることを示す新しい洞察を提供する。
論文 参考訳(メタデータ) (2025-05-03T16:37:14Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Robust Bayesian Recourse [13.526999070658231]
アルゴリズムのリコースは、好ましくない機械学習の決定を覆すために、情報的なフィードバックを推奨することを目的としている。
本稿では,後続確率オッズ比を最小化するモデル非依存リコースであるベイズ的リコースを紹介する。
我々は、機械学習モデルパラメータの将来の変更に対処する目的で、min-maxのロバストな競合を提示する。
論文 参考訳(メタデータ) (2022-06-22T04:17:17Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。