論文の概要: Anytime Probabilistically Constrained Provably Convergent Online Belief Space Planning
- arxiv url: http://arxiv.org/abs/2411.06711v1
- Date: Mon, 11 Nov 2024 04:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:08:16.191055
- Title: Anytime Probabilistically Constrained Provably Convergent Online Belief Space Planning
- Title(参考訳): 確率的に制約されたオンライン信念空間計画
- Authors: Andrey Zhitnikov, Vadim Indelman,
- Abstract要約: 連続領域におけるモンテカルロ木探索法 (MCTS) を用いた随時アプローチを提案する。
我々はアルゴリズムのバージョンの指数率で確率収束を証明し、広範囲なシミュレーションを通して提案手法を検証した。
- 参考スコア(独自算出の注目度): 7.081396107231381
- License:
- Abstract: Taking into account future risk is essential for an autonomously operating robot to find online not only the best but also a safe action to execute. In this paper, we build upon the recently introduced formulation of probabilistic belief-dependent constraints. We present an anytime approach employing the Monte Carlo Tree Search (MCTS) method in continuous domains. Unlike previous approaches, our method assures safety anytime with respect to the currently expanded search tree without relying on the convergence of the search. We prove convergence in probability with an exponential rate of a version of our algorithms and study proposed techniques via extensive simulations. Even with a tiny number of tree queries, the best action found by our approach is much safer than the baseline. Moreover, our approach constantly finds better than the baseline action in terms of objective. This is because we revise the values and statistics maintained in the search tree and remove from them the contribution of the pruned actions.
- Abstract(参考訳): 未来のリスクを考慮に入れれば、自律運転ロボットは、最高のだけでなく、安全に実行すべき行動もオンラインで見つけることが不可欠である。
本稿では,確率論的信念に依存した制約の定式化について述べる。
連続領域におけるモンテカルロ木探索法 (MCTS) を用いた随時アプローチを提案する。
従来の手法とは異なり,提案手法は探索の収束に頼らずに,現在拡張されている探索木に対して常に安全を保証している。
我々はアルゴリズムのバージョンの指数率で確率収束を証明し、広範囲なシミュレーションを通して提案手法を検証した。
ごく少数のツリークエリであっても、私たちのアプローチで見つかる最良のアクションは、ベースラインよりもはるかに安全です。
さらに,本手法は,客観的な基準行動よりも常に優れていると考えられる。
これは,探索木に保持されている値と統計を改訂し,刈り取られた行動の寄与を除去するためである。
関連論文リスト
- Uncertainty-Guided Optimization on Large Language Model Search Trees [42.71167208999792]
大規模言語モデル(LLM)の復号過程における最大可能性列の探索においては,greedy や beam search などの木探索アルゴリズムが標準となっている。
LLMの遷移確率に関する事前の信念を定義し、各反復において最も有望な経路についての後続の信念を得る。
モンテカルロ木探索のような高価なシミュレーションに基づく非光学的手法とは異なり、我々の手法は信念からのサンプルのみを必要とする。
論文 参考訳(メタデータ) (2024-07-04T14:08:50Z) - Approximate Dec-POMDP Solving Using Multi-Agent A* [8.728372851272727]
有限水平DEC-POMDPに対するポリシを計算するためのA*アルゴリズムを提案する。
私たちのゴールは、より大きな地平線に対するスケーラビリティを優先して、最適性を犠牲にすることです。
論文 参考訳(メタデータ) (2024-05-09T10:33:07Z) - Monte Carlo Tree Search with Boltzmann Exploration [16.06815496704043]
本稿では,Boltzmann Tree Search(BTS)とDENTS(Desaying ENtropy Tree-Search)を紹介する。
我々のアルゴリズムは、Goのゲームを含むいくつかのベンチマーク領域で一貫したハイパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-04-11T13:25:35Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Learning to be safe, in finite time [4.189643331553922]
本稿では,未知の環境での安全な行動の学習を,確率が保証されても,無拘束の探索試験を必要とせずに実現できるという考えを提唱する。
我々は、標準的マルチアームバンディット問題に焦点をあて、安全学習における探索保存トレードオフの本質的な研究を模索する。
論文 参考訳(メタデータ) (2020-10-01T14:03:34Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。