論文の概要: Tighter Value-Function Approximations for POMDPs
- arxiv url: http://arxiv.org/abs/2502.06523v1
- Date: Mon, 10 Feb 2025 14:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:32.824951
- Title: Tighter Value-Function Approximations for POMDPs
- Title(参考訳): POMDPの高次値関数近似
- Authors: Merlijn Krale, Wietze Koops, Sebastian Junges, Thiago D. Simão, Nils Jansen,
- Abstract要約: 本稿では,一般的に用いられる高速情報境界よりも,新しい,証明可能な高値境界を導入する。
計算オーバーヘッドの増大にもかかわらず、新しい上限は幅広いベンチマークで最先端のPOMDPソルバを加速させる。
- 参考スコア(独自算出の注目度): 13.389290948434557
- License:
- Abstract: Solving partially observable Markov decision processes (POMDPs) typically requires reasoning about the values of exponentially many state beliefs. Towards practical performance, state-of-the-art solvers use value bounds to guide this reasoning. However, sound upper value bounds are often computationally expensive to compute, and there is a tradeoff between the tightness of such bounds and their computational cost. This paper introduces new and provably tighter upper value bounds than the commonly used fast informed bound. Our empirical evaluation shows that, despite their additional computational overhead, the new upper bounds accelerate state-of-the-art POMDP solvers on a wide range of benchmarks.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定過程(POMDP)を解くには、典型的には指数的に多くの状態信念の値について推論する必要がある。
実用的パフォーマンスに向けて、最先端の解決者は値境界を使ってこの推論を導く。
しかし、音高境界はしばしば計算に費用がかかるため、そのような境界の厳密さと計算コストとの間にはトレードオフがある。
本稿では、一般的に用いられる高速情報境界よりも、新しい、かつ確実に高い値境界を導入する。
実験により, 計算オーバーヘッドが増大しているにもかかわらず, 新しい上界は, 幅広いベンチマークにおいて, 最先端のPOMDPソルバを加速することを示した。
関連論文リスト
- The regret lower bound for communicating Markov Decision Processes [15.108805347673401]
我々は、エルゴード的マルコフ決定過程(MDPs)を超えて、後悔の少ない境界を延長する。
我々の下限は、一貫した学習エージェントに必要な爆発的振る舞いを再考する。
これら2つの爆発的・共同探索的行動は,航法制約に絡み合っていることを示す。
論文 参考訳(メタデータ) (2025-01-22T16:56:42Z) - Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models [4.156757591117864]
本稿では,問題に対する仮定を最小化しながら,改善された後悔境界を実現する新しいアルゴリズムを提案する。
本手法は, 一般関数空間を考慮し, 動的価格設定によく用いられる線形評価モデルを超えて拡張する。
論文 参考訳(メタデータ) (2024-06-24T23:43:56Z) - Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。
最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。
我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文 参考訳(メタデータ) (2024-04-19T06:24:22Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Qubit Number Optimization for Restriction Terms of QUBO Hamiltonians [62.997667081978825]
数学的には$R$の分数値を求めることができる。
制限ハミルトニアンの実装に必要な量子ビット数をさらに減らす方法を示す。
最後に、FRCの実装に直面した場合、DWaveのAdvantage$_$system4.1 Quantum Annealer(QA)の応答を特徴付ける。
論文 参考訳(メタデータ) (2023-06-12T08:25:56Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - An Adaptive State Aggregation Algorithm for Markov Decision Processes [10.494611365482028]
同様のコスト・ツー・ゴー値の状態を動的にグループ化することで、価値反復更新のコストを削減できるMDPを解くための直感的なアルゴリズムを提案する。
我々のアルゴリズムはほぼ確実に(2varepsilon / (1 - gamma) に収束し、(γ) は割引係数であり、集約された状態は最大で (varepsilon) 異なる。
論文 参考訳(メタデータ) (2021-07-23T07:19:43Z) - Adversarial Robustness Guarantees for Gaussian Processes [22.403365399119107]
ガウス過程(GP)は、モデルの不確実性の原理的計算を可能にし、安全性に重要なアプリケーションに魅力的です。
境界付き摂動に対するモデル決定の不変性として定義されるGPの対向的堅牢性を分析するためのフレームワークを提案する。
我々は境界を洗練し、任意の$epsilon > 0$に対して、我々のアルゴリズムが有限個の反復で実際の値に$epsilon$-closeの値に収束することを保証していることを示す分岐とバウンドのスキームを開発する。
論文 参考訳(メタデータ) (2021-04-07T15:14:56Z) - Approximation Algorithms for Sparse Principal Component Analysis [57.5357874512594]
主成分分析(PCA)は、機械学習と統計学において広く使われている次元削減手法である。
スパース主成分分析(Sparse principal Component Analysis)と呼ばれる,スパース主成分負荷を求める様々な手法が提案されている。
本研究では,SPCA問題に対するしきい値の精度,時間,近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T04:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。