論文の概要: The Wasserstein Believer: Learning Belief Updates for Partially
Observable Environments through Reliable Latent Space Models
- arxiv url: http://arxiv.org/abs/2303.03284v1
- Date: Mon, 6 Mar 2023 16:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:19:56.672160
- Title: The Wasserstein Believer: Learning Belief Updates for Partially
Observable Environments through Reliable Latent Space Models
- Title(参考訳): Wasserstein Believer:Reliable Latent Space Modelによる部分観測可能な環境に対する信頼度更新の学習
- Authors: Raphael Avalos, Florent Delgrange, Ann Now\'e, Guillermo A. P\'erez,
Diederik M. Roijers
- Abstract要約: 本稿では,POMDPの潜在モデルと信念更新の近似を学習するRLアルゴリズムを提案する。
我々のアプローチは、我々の出力された信念が最適な値関数を学習できるようにするため、近似の質に関する理論的保証が伴う。
- 参考スコア(独自算出の注目度): 2.3449131636069898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) are useful tools to
model environments where the full state cannot be perceived by an agent. As
such the agent needs to reason taking into account the past observations and
actions. However, simply remembering the full history is generally intractable
due to the exponential growth in the history space. Keeping a probability
distribution that models the belief over what the true state is can be used as
a sufficient statistic of the history, but its computation requires access to
the model of the environment and is also intractable. Current state-of-the-art
algorithms use Recurrent Neural Networks (RNNs) to compress the
observation-action history aiming to learn a sufficient statistic, but they
lack guarantees of success and can lead to suboptimal policies. To overcome
this, we propose the Wasserstein-Belief-Updater (WBU), an RL algorithm that
learns a latent model of the POMDP and an approximation of the belief update.
Our approach comes with theoretical guarantees on the quality of our
approximation ensuring that our outputted beliefs allow for learning the
optimal value function.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、エージェントによって完全な状態が認識できない環境をモデル化するための有用なツールである。
このように、エージェントは過去の観察と行動を考慮する必要がある。
しかし、歴史空間の指数的な成長のため、単に歴史全体を記憶することは一般的に難解である。
真の状態に関する信念をモデル化する確率分布を維持することは、歴史の十分な統計量として使用できるが、その計算には環境のモデルへのアクセスが必要であり、また難解である。
現在の最先端アルゴリズムはrecurrent neural network(rnn)を使用して、十分な統計値の学習を目的とした観測行動履歴を圧縮するが、成功の保証がなく、最適でないポリシにつながる可能性がある。
そこで本研究では,pomdpの潜在モデルと信念更新の近似を学習するrlアルゴリズムであるwasserstein-belief-updater(wbu)を提案する。
我々のアプローチは、我々の出力された信念が最適な値関数を学習できるように、近似の品質に関する理論的保証が伴う。
関連論文リスト
- Probabilistic Inference in Reinforcement Learning Done Right [37.31057328219418]
強化学習における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。
この量を近似するための従来のアプローチは任意に貧弱であり、真の統計的推論を実装しないアルゴリズムに繋がる。
我々はまず、この量が、後悔によって測定されるように、効率的に探索するポリシーを生成するために実際に利用できることを明らかにした。
論文 参考訳(メタデータ) (2023-11-22T10:23:14Z) - DOMAIN: MilDly COnservative Model-BAsed OfflINe Reinforcement Learning [15.624462758984153]
保守主義は、正確なオフラインデータと不正確なモデルデータのバランスをとるために、アルゴリズムに組み込まれるべきです。
本稿では、モデル不確実性を推定することなく、milDly cOnservative Model-bAsed offlINe RLアルゴリズム(DOMAIN)を提案する。
大規模な実験の結果、DOMAINはD4RLデータセットのベンチマークにおいて、以前のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-09-16T08:39:28Z) - Can Direct Latent Model Learning Solve Linear Quadratic Gaussian
Control? [75.14973944905216]
本研究では,高次元観測から状態表現を学習する課題について検討する。
我々は,ある潜在状態空間における動的モデルを,計画に直接関連する量を予測することによって学習する,直接潜在モデル学習手法を追求する。
論文 参考訳(メタデータ) (2022-12-30T01:42:04Z) - Knowing the Past to Predict the Future: Reinforcement Virtual Learning [29.47688292868217]
近年,強化学習(RL)に基づく制御システムが注目されている。
本稿では,RLモデルが仮想空間内で自分自身で進化できるような,コスト効率のよいフレームワークを提案する。
提案フレームワークは、ステップバイステップのRLモデルにより、将来の状態を予測し、長期的意思決定のための最適なアクションを選択することができる。
論文 参考訳(メタデータ) (2022-11-02T16:48:14Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Flow-based Recurrent Belief State Learning for POMDPs [20.860726518161204]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、実世界のシーケンシャルな意思決定プロセスをモデル化するための原則的で汎用的なフレームワークを提供する。
主な課題は、観測不能な環境状態の確率分布である信念状態をどのように正確に取得するかである。
近年のディープラーニング技術の進歩は、良き信念状態を学ぶ大きな可能性を示している。
論文 参考訳(メタデータ) (2022-05-23T05:29:55Z) - Learning Probabilistic Ordinal Embeddings for Uncertainty-Aware
Regression [91.3373131262391]
不確かさが唯一の確実性である。
伝統的に、直接回帰定式化を考慮し、ある確率分布の族に出力空間を変更することによって不確実性をモデル化する。
現在のレグレッション技術における不確実性をモデル化する方法は、未解決の問題である。
論文 参考訳(メタデータ) (2021-03-25T06:56:09Z) - Learning Interpretable Deep State Space Model for Probabilistic Time
Series Forecasting [98.57851612518758]
確率的時系列予測は、その歴史に基づいて将来の分布を推定する。
本稿では,非線形エミッションモデルと遷移モデルとをネットワークによってパラメータ化した,確率的時系列予測のための深部状態空間モデルを提案する。
実験では,我々のモデルが正確かつ鋭い確率予測を生成することを示す。
論文 参考訳(メタデータ) (2021-01-31T06:49:33Z) - Bayes-Adaptive Deep Model-Based Policy Optimisation [4.675381958034012]
本稿では,モデル不確実性を捕捉し,サンプル効率のよいポリシ最適化を実現する,ベイズ型(深度)モデルベース強化学習法(RoMBRL)を提案する。
ベイズ適応マルコフ決定過程(BAMDP)としてモデルに基づく政策最適化問題を定式化することを提案する。
また,RoMBRLは,サンプルの複雑度やタスク性能の観点から,多くの困難な制御ベンチマークタスクにおいて,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-29T21:17:25Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。