論文の概要: Sample-Efficient Learning of POMDPs with Multiple Observations In
Hindsight
- arxiv url: http://arxiv.org/abs/2307.02884v1
- Date: Thu, 6 Jul 2023 09:39:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 14:35:59.171158
- Title: Sample-Efficient Learning of POMDPs with Multiple Observations In
Hindsight
- Title(参考訳): 多視点観測によるPOMDPのサンプル効率学習
- Authors: Jiacheng Guo, Minshuo Chen, Huan Wang, Caiming Xiong, Mengdi Wang, Yu
Bai
- Abstract要約: 本稿では,部分観測可能なマルコフ決定過程(POMDP)における学習のサンプル効率について検討する。
「ゲームプレイにおけるローディングのような現実世界の設定に動機付けられて、後視における多重観察と呼ばれる強化されたフィードバックモデルを提案する。」
我々は,POMDPの2つのサブクラスに対して,サンプル効率の学習が可能であることを示した。
- 参考スコア(独自算出の注目度): 105.6882315781987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the sample-efficiency of learning in Partially Observable
Markov Decision Processes (POMDPs), a challenging problem in reinforcement
learning that is known to be exponentially hard in the worst-case. Motivated by
real-world settings such as loading in game playing, we propose an enhanced
feedback model called ``multiple observations in hindsight'', where after each
episode of interaction with the POMDP, the learner may collect multiple
additional observations emitted from the encountered latent states, but may not
observe the latent states themselves. We show that sample-efficient learning
under this feedback model is possible for two new subclasses of POMDPs:
\emph{multi-observation revealing POMDPs} and \emph{distinguishable POMDPs}.
Both subclasses generalize and substantially relax \emph{revealing POMDPs} -- a
widely studied subclass for which sample-efficient learning is possible under
standard trajectory feedback. Notably, distinguishable POMDPs only require the
emission distributions from different latent states to be \emph{different}
instead of \emph{linearly independent} as required in revealing POMDPs.
- Abstract(参考訳): 本稿では,強化学習における難解な問題である部分可観測マルコフ決定過程(pomdps)における学習のサンプル効率について検討する。
ゲームプレイにおけるローディングなどの実世界の設定により,POMDPと対話する各エピソードの後に,学習者は遭遇した潜伏状態から放出される複数の追加観測を収集するが,潜伏状態自体を観察しないような,強化されたフィードバックモデルを提案する。
このフィードバックモデルに基づくサンプル効率学習は,POMDPsの新たなサブクラスである \emph{multi-observation revealeding POMDPs} と \emph{distinguishable POMDPs} の2つに対して可能であることを示す。
両方のサブクラスは、標準軌跡フィードバックの下でサンプル効率の学習が可能な広く研究されているサブクラスである 'emph{revealing POMDPs} を一般化し、実質的に緩和する。
特に、区別可能なPOMDPは、POMDPを明らかにするのに必要な \emph{linearly independent} の代わりに、異なる潜在状態からの放出分布を \emph{different} としてのみ要求する。
関連論文リスト
- ProPML: Probability Partial Multi-label Learning [12.814910734614351]
部分的多ラベル学習(Partial Multi-label Learning, PML)は、弱い教師付き学習の一種で、各トレーニングインスタンスが候補ラベルの集合に対応する。
本稿では,この問題に対する新しい確率的アプローチとして,二項交叉エントロピーをPML設定に拡張する手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T12:40:23Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Posterior Sampling-based Online Learning for Episodic POMDPs [5.797837329787459]
本研究では,遷移モデルと観測モデルが未知のエピソードPOMDPに対するオンライン学習問題を考察する。
ポストリアサンプリングに基づくPOMDPのための強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-16T06:41:13Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Learning in POMDPs is Sample-Efficient with Hindsight Observability [36.66596305441365]
POMDPは、幅広い意思決定問題を捉えているが、難易度の結果は、学習が本質的に部分観測可能であるため、単純な設定でも難易度が高いことを示唆している。
多くの現実的な問題では、より多くの情報が明らかにされるか、学習プロセスのどこかの時点で計算できる。
我々は、学習者が学習中にのみ潜伏状態を明らかにするPOMDPとして設定(setshort)を定式化する。
論文 参考訳(メタデータ) (2023-01-31T18:54:36Z) - Optimistic MLE -- A Generic Model-based Algorithm for Partially
Observable Sequential Decision Making [48.87943416098096]
本稿では,一般的な逐次決定のための簡単な学習アルゴリズムを提案する。
我々は,OMLEが極めて豊富な逐次的意思決定問題のクラスにおいて,ほぼ最適ポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-09-29T17:56:25Z) - When Is Partially Observable Reinforcement Learning Not Scary? [30.754810416907123]
本研究は, 部分的に観測可能な決定過程(POMDP)を学習するには, 最悪の場合, 指数的なサンプル数を必要とすることを示す。
これは、オーバーコンプリートPOMDPの相互作用から学習するための、証明可能な最初の結果である。
論文 参考訳(メタデータ) (2022-04-19T16:08:28Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。