論文の概要: A Bayesian Approach to Learning Bandit Structure in Markov Decision
Processes
- arxiv url: http://arxiv.org/abs/2208.00250v1
- Date: Sat, 30 Jul 2022 15:18:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 12:58:59.085320
- Title: A Bayesian Approach to Learning Bandit Structure in Markov Decision
Processes
- Title(参考訳): マルコフ決定過程における帯域構造学習へのベイズ的アプローチ
- Authors: Kelly W. Zhang, Omer Gottesman, Finale Doshi-Velez
- Abstract要約: 本研究では,ベイズ仮説テスト手法を用いて環境特性を学習するオンラインアルゴリズムを開発した。
CB設定では、我々のアルゴリズムはMDPベースのアルゴリズムよりも後悔の少ないが、非帯域のMDP設定では最適なポリシーを学習できることを示した。
- 参考スコア(独自算出の注目度): 33.82909347826552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the reinforcement learning literature, there are many algorithms developed
for either Contextual Bandit (CB) or Markov Decision Processes (MDP)
environments. However, when deploying reinforcement learning algorithms in the
real world, even with domain expertise, it is often difficult to know whether
it is appropriate to treat a sequential decision making problem as a CB or an
MDP. In other words, do actions affect future states, or only the immediate
rewards? Making the wrong assumption regarding the nature of the environment
can lead to inefficient learning, or even prevent the algorithm from ever
learning an optimal policy, even with infinite data. In this work we develop an
online algorithm that uses a Bayesian hypothesis testing approach to learn the
nature of the environment. Our algorithm allows practitioners to incorporate
prior knowledge about whether the environment is that of a CB or an MDP, and
effectively interpolate between classical CB and MDP-based algorithms to
mitigate against the effects of misspecifying the environment. We perform
simulations and demonstrate that in CB settings our algorithm achieves lower
regret than MDP-based algorithms, while in non-bandit MDP settings our
algorithm is able to learn the optimal policy, often achieving comparable
regret to MDP-based algorithms.
- Abstract(参考訳): 強化学習文献では、コンテキスト帯域(CB)またはマルコフ決定プロセス(MDP)環境向けに開発されたアルゴリズムが多数存在する。
しかし, 実世界における強化学習アルゴリズムの展開においては, ドメイン知識があっても, 逐次的意思決定問題をCBやMDPとして扱うことが適切かどうかを知ることは困難であることが多い。
言い換えれば、アクションは将来の状態に影響を与えるのか、あるいは即時報酬のみに影響するのか?
環境の性質に関する誤った仮定は、非効率な学習につながる可能性があるし、無限のデータであってもアルゴリズムが最適なポリシーを学習することさえ防止できる。
本研究では,ベイズ仮説テスト手法を用いて環境の性質を学習するオンラインアルゴリズムを開発した。
提案アルゴリズムでは, 環境がCBかMDPかという事前知識を取り入れ, 従来のCBとMDPに基づくアルゴリズムを効果的に補間することにより, 環境の誤特定による影響を軽減できる。
シミュレーションを行い、CB設定では、我々のアルゴリズムはMDPベースのアルゴリズムよりも後悔度が低く、一方、非帯域のMDP設定では、アルゴリズムは最適なポリシーを学習でき、しばしばMDPベースのアルゴリズムに匹敵する後悔度を達成できることを示す。
関連論文リスト
- Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。
平均再帰型MDPのユニークな構造特性を考察し,これを用いてReward-Extended Differential (RED) 強化学習を導入する。
論文 参考訳(メタデータ) (2024-10-14T14:52:23Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - SymBa: Symmetric Backpropagation-Free Contrastive Learning with
Forward-Forward Algorithm for Optimizing Convergence [1.6244541005112747]
本研究では,より生物学的に妥当な学習を実現することを目的とした,SymBaと呼ばれる新しいアルゴリズムを提案する。
これは、ニューラルネットワークをトレーニングするためのBPフリーな手法であるフォワード・フォワード(FF)アルゴリズムに基づいている。
提案したアルゴリズムは、脳が情報を学び、処理する方法の理解を深める可能性がある。
論文 参考訳(メタデータ) (2023-03-15T07:39:23Z) - ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints [36.16736392624796]
平均基準付き制約付きMDPに対する関数近似アルゴリズムを用いた新しいポリシー最適化を提案する。
我々は,平均CMDPに対する基本感度理論を開発し,それに対応する境界をアルゴリズムの設計に用いた。
ACMDPに適応した他の最先端アルゴリズムと比較して,実験性能が優れていることを示す。
論文 参考訳(メタデータ) (2023-02-02T00:23:36Z) - Continuous MDP Homomorphisms and Homomorphic Policy Gradient [51.25171126424949]
MDP準同型の定義を拡張し、連続状態空間における連続的な作用を包含する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T15:26:49Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Reinforcement Learning with Algorithms from Probabilistic Structure
Estimation [9.37335587960084]
強化学習アルゴリズムは未知の環境で最適な決定を学習することを目的としている。
エージェントのアクションが環境に影響を及ぼすかどうかは、当初から不明である。
どのRLアルゴリズムが最も適しているかを決定することはしばしば不可能です。
論文 参考訳(メタデータ) (2021-03-15T09:51:34Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。