論文の概要: Online POMDP Planning via Simplification
- arxiv url: http://arxiv.org/abs/2105.05296v1
- Date: Tue, 11 May 2021 18:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 02:14:14.649394
- Title: Online POMDP Planning via Simplification
- Title(参考訳): 簡易化によるオンラインPOMDP計画
- Authors: Ori Sztyglic and Vadim Indelman
- Abstract要約: 信念依存報酬を考慮したPOMDP計画への新しいアプローチを開発しています。
我々のアプローチは、元の問題の最適解を見つけることは保証されているが、かなりのスピードアップがある。
これらの境界と単純化がサンプル数の減少に対応し,計算速度が大幅に向上するシミュレーション手法を検証した。
- 参考スコア(独自算出の注目度): 10.508187462682306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider online planning in partially observable domains.
Solving the corresponding POMDP problem is a very challenging task,
particularly in an online setting. Our key contribution is a novel algorithmic
approach, Simplified Information Theoretic Belief Space Planning (SITH-BSP),
which aims to speed-up POMDP planning considering belief-dependent rewards,
without compromising on the solution's accuracy. We do so by mathematically
relating the simplified elements of the problem to the corresponding
counterparts of the original problem. Specifically, we focus on belief
simplification and use it to formulate bounds on the corresponding original
belief-dependent rewards. These bounds in turn are used to perform branch
pruning over the belief tree, in the process of calculating the optimal policy.
We further introduce the notion of adaptive simplification, while re-using
calculations between different simplification levels and exploit it to prune,
at each level in the belief tree, all branches but one. Therefore, our approach
is guaranteed to find the optimal solution of the original problem but with
substantial speedup. As a second key contribution, we derive novel analytical
bounds for differential entropy, considering a sampling-based belief
representation, which we believe are of interest on their own. We validate our
approach in simulation using these bounds and where simplification corresponds
to reducing the number of samples, exhibiting a significant computational
speedup while yielding the optimal solution.
- Abstract(参考訳): 本稿では,部分可観測領域におけるオンライン計画について考察する。
対応するPOMDP問題を解決するのは、特にオンライン環境では非常に難しい作業です。
提案手法は,提案手法の精度を損なうことなく,信念依存報酬を考慮したpomdp計画の高速化を目標とする,簡易な情報理論的信念空間計画(sith-bsp)である。
我々は、問題の単純化された要素と元の問題の対応する要素とを数学的に関連付ける。
具体的には、信念の単純化に焦点をあて、それを用いて、対応する信念に依存した報酬の限界を定式化する。
これらの境界は、最適方針を計算する過程において、信念ツリー上で枝刈りを行うために使用される。
さらに,異なる単純化レベル間の計算を再使用しながら,適応的単純化の概念を導入し,信念ツリーの各レベルにおいて,すべての分岐を1つを除いてpruneに活用する。
したがって、我々のアプローチは、オリジナルの問題の最適解を見つけることは保証されているが、かなりのスピードアップがある。
第2の鍵となる貢献として、サンプリングに基づく信念表現を考えると、微分エントロピーに対する新しい解析的境界を導出する。
これらの境界を用いてシミュレーションを行い, 簡易化がサンプル数の減少に対応し, 最適解を導出しながら, 計算速度を著しく向上させる手法を検証した。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - No Compromise in Solution Quality: Speeding Up Belief-dependent Continuous POMDPs via Adaptive Multilevel Simplification [6.300736240833814]
一般的な信念に依存した報酬を持つ継続的POMDPは、オンラインでの解決が難しいことで知られている。
与えられた外部構築された信条木の設定に対する適応的多レベル単純化の完全証明可能な理論を提案する。
我々は,信念に依存した報酬で,POMDPのオンラインプランニングを高速化する3つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-16T10:59:22Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - Simplified Continuous High Dimensional Belief Space Planning with
Adaptive Probabilistic Belief-dependent Constraints [9.061408029414453]
部分的に観測可能な領域における不確実性、あるいはBelief Space Planningとしても知られる場合、オンライン意思決定は根本的な問題である。
本稿では,確率論的信念に依存した制約に対して,適応的に行動列を受理あるいは破棄する手法を提案する。
本手法を高次元空間計画の課題であるアクティブSLAMに適用する。
論文 参考訳(メタデータ) (2023-02-13T21:22:47Z) - Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs [24.256960622176305]
エピソードマルコフ決定過程におけるPAC RLのサンプル複雑性について, 上界と下界の整合性について検討した。
私たちの境界は、決定論的リターンギャップ(deterministic return gap)と呼ばれる状態-作用ペアに対して、新たな最適ギャップ(sub-optimality gap)を特徴とする。
彼らの設計と分析は、最小フローや最大カットといったグラフ理論の概念を含む新しいアイデアを採用している。
論文 参考訳(メタデータ) (2022-03-17T11:19:41Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。
これらの問題に対する新規で簡単な最適化法を開発した。
結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-09-23T17:38:24Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - FedSplit: An algorithmic framework for fast federated optimization [40.42352500741025]
本稿では,分散凸最小化を付加構造で解くアルゴリズムのクラスであるFedSplitを紹介する。
これらの手法は, 中間局所量の不正確な計算に対して, 確実に堅牢であることを示す。
論文 参考訳(メタデータ) (2020-05-11T16:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。