論文の概要: Learning in POMDPs is Sample-Efficient with Hindsight Observability
- arxiv url: http://arxiv.org/abs/2301.13857v1
- Date: Tue, 31 Jan 2023 18:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 15:16:15.521033
- Title: Learning in POMDPs is Sample-Efficient with Hindsight Observability
- Title(参考訳): POMDPsでの学習は、近視可観測性に有効である
- Authors: Jonathan N. Lee, Alekh Agarwal, Christoph Dann, Tong Zhang
- Abstract要約: POMDPは、幅広い意思決定問題を捉えているが、難易度の結果は、学習が本質的に部分観測可能であるため、単純な設定でも難易度が高いことを示唆している。
多くの現実的な問題では、より多くの情報が明らかにされるか、学習プロセスのどこかの時点で計算できる。
我々は、学習者が学習中にのみ潜伏状態を明らかにするPOMDPとして設定(setshort)を定式化する。
- 参考スコア(独自算出の注目度): 36.66596305441365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: POMDPs capture a broad class of decision making problems, but hardness
results suggest that learning is intractable even in simple settings due to the
inherent partial observability. However, in many realistic problems, more
information is either revealed or can be computed during some point of the
learning process. Motivated by diverse applications ranging from robotics to
data center scheduling, we formulate a \setting (\setshort) as a POMDP where
the latent states are revealed to the learner in hindsight and only during
training. We introduce new algorithms for the tabular and function
approximation settings that are provably sample-efficient with hindsight
observability, even in POMDPs that would otherwise be statistically
intractable. We give a lower bound showing that the tabular algorithm is
optimal in its dependence on latent state and observation cardinalities.
- Abstract(参考訳): POMDPは、幅広い意思決定問題を捉えているが、難易度の結果は、学習が本質的に部分観測可能であるため、単純な設定でも難解であることを示している。
しかし、多くの現実的な問題では、学習過程のどこかの時点でより多くの情報が明らかにされるか、計算できる。
ロボット工学からデータセンタースケジューリングまで多種多様な応用を動機として,潜伏状態が学習者に対して後向きかつ訓練中にのみ明らかとなるPOMDPとして「設定」(\setshort)を定式化する。
統計的に難易度の高いPOMDPであっても,後方観測性のあるサンプル効率の高い表型および関数近似設定のための新しいアルゴリズムを導入する。
表計算アルゴリズムが潜時状態と観測基準に依存する場合に最適であることを示す下界を与える。
関連論文リスト
- Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Sample-Efficient Learning of POMDPs with Multiple Observations In
Hindsight [105.6882315781987]
本稿では,部分観測可能なマルコフ決定過程(POMDP)における学習のサンプル効率について検討する。
「ゲームプレイにおけるローディングのような現実世界の設定に動機付けられて、後視における多重観察と呼ばれる強化されたフィードバックモデルを提案する。」
我々は,POMDPの2つのサブクラスに対して,サンプル効率の学習が可能であることを示した。
論文 参考訳(メタデータ) (2023-07-06T09:39:01Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - When Is Partially Observable Reinforcement Learning Not Scary? [30.754810416907123]
本研究は, 部分的に観測可能な決定過程(POMDP)を学習するには, 最悪の場合, 指数的なサンプル数を必要とすることを示す。
これは、オーバーコンプリートPOMDPの相互作用から学習するための、証明可能な最初の結果である。
論文 参考訳(メタデータ) (2022-04-19T16:08:28Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。