論文の概要: Planning to the Information Horizon of BAMDPs via Epistemic State
Abstraction
- arxiv url: http://arxiv.org/abs/2210.16872v1
- Date: Sun, 30 Oct 2022 16:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:59:12.863905
- Title: Planning to the Information Horizon of BAMDPs via Epistemic State
Abstraction
- Title(参考訳): てんかん状態抽象化によるBAMDPの情報水平化計画
- Authors: Dilip Arumugam, Satinder Singh
- Abstract要約: ベイズ適応マルコフ決定過程 (Bayes-Adaptive Markov Decision Process, BAMDP) は、強化学習における探索・探索のトレードオフに対するベイズ最適解を追求する形式である。
文献の多くは適切な近似アルゴリズムの開発に重点を置いている。
BAMDP計画の複雑さの尺度として,まず軽微な構造的仮定で定義する。
そして、BAMDPの複雑性を低減し、計算可能で近似的な計画アルゴリズムを生み出す可能性を備えた、特定の状態抽象化形式を導入することで、結論付ける。
- 参考スコア(独自算出の注目度): 27.33232096515561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Bayes-Adaptive Markov Decision Process (BAMDP) formalism pursues the
Bayes-optimal solution to the exploration-exploitation trade-off in
reinforcement learning. As the computation of exact solutions to Bayesian
reinforcement-learning problems is intractable, much of the literature has
focused on developing suitable approximation algorithms. In this work, before
diving into algorithm design, we first define, under mild structural
assumptions, a complexity measure for BAMDP planning. As efficient exploration
in BAMDPs hinges upon the judicious acquisition of information, our complexity
measure highlights the worst-case difficulty of gathering information and
exhausting epistemic uncertainty. To illustrate its significance, we establish
a computationally-intractable, exact planning algorithm that takes advantage of
this measure to show more efficient planning. We then conclude by introducing a
specific form of state abstraction with the potential to reduce BAMDP
complexity and gives rise to a computationally-tractable, approximate planning
algorithm.
- Abstract(参考訳): ベイズ適応マルコフ決定過程(bamdp)は、強化学習における探索・爆発のトレードオフに対するベイズ最適解を追求する。
ベイズ強化学習問題に対する厳密解の計算は難解であり、文献の多くは適切な近似アルゴリズムの開発に重点を置いている。
本研究では,アルゴリズム設計に踏み込む前に,まず,bamdp計画のための複雑度尺度を,軽度構造的仮定の下で定義する。
BAMDPの効率的な探索は情報収集の司法的獲得に結びつくため、我々の複雑さ対策は情報収集の難しさと疫学の不確かさを浮き彫りにする。
その意義を説明するために,より効率的な計画を示すために,この手法を活用し,計算に難解で正確な計画アルゴリズムを確立する。
結論として,bamdpの複雑性を低減し,計算可能な近似計画アルゴリズムを導出する可能性を持つ特定の状態抽象化を導入する。
関連論文リスト
- Depth-Bounded Epistemic Planning [50.42592219248395]
本稿では,動的てんかん論理に基づく新しい計画法を提案する。
新規性は、計画エージェントの推論の深さを上界bに制限することである。
推論深度の境界b内における解を持つ計画タスクに関して、完全なものであることを示す。
論文 参考訳(メタデータ) (2024-06-03T09:30:28Z) - An Improved Artificial Fish Swarm Algorithm for Solving the Problem of
Investigation Path Planning [8.725702964289479]
多集団差分進化(DE-CAFSA)に基づくカオス人工魚群アルゴリズムを提案する。
適応的な視野とステップサイズ調整を導入し、ランダムな動作を2オプト操作に置き換え、カオス理論と準最適解を導入する。
実験結果から、DECAFSAは、異なる大きさの様々な公開データセット上で、他のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-20T09:35:51Z) - On efficient computation in active inference [1.1470070927586016]
計算量を大幅に減らした有限時間地平線に対する新しい計画アルゴリズムを提案する。
また、新規かつ既存のアクティブな推論計画スキームに対して適切な目標分布を設定するプロセスを簡単にする。
論文 参考訳(メタデータ) (2023-07-02T07:38:56Z) - Simple Steps to Success: Axiomatics of Distance-Based Algorithmic
Recourse [13.207786673115296]
本稿では,方向に基づくアルゴリズム・リコースを計算するための,公理的に正当化されたフレームワークStEPを提案する。
StEPは、証明可能なプライバシとロバスト性保証を提供し、確立されたいくつかのデシダラタの最先端を上回ります。
論文 参考訳(メタデータ) (2023-06-27T15:35:22Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Learning to Optimize Resource Assignment for Task Offloading in Mobile
Edge Computing [35.69975917554333]
深層学習(DL)を適用した知的BnB(IBnB)アプローチを提案し,BnBアプローチの刈り取り戦略を学習する。
この学習手法を用いることで、BnBアプローチの構造は、ほぼ最適性能を保証し、DLベースのプルーニング戦略は複雑さを著しく低減する。
論文 参考訳(メタデータ) (2022-03-15T10:17:29Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - A Unifying Framework for Reinforcement Learning and Planning [2.564530030795554]
本稿では、強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。
論文の最後には、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
論文 参考訳(メタデータ) (2020-06-26T14:30:41Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。