論文の概要: The Wasserstein Believer: Learning Belief Updates for Partially
Observable Environments through Reliable Latent Space Models
- arxiv url: http://arxiv.org/abs/2303.03284v1
- Date: Mon, 6 Mar 2023 16:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:19:56.672160
- Title: The Wasserstein Believer: Learning Belief Updates for Partially
Observable Environments through Reliable Latent Space Models
- Title(参考訳): Wasserstein Believer:Reliable Latent Space Modelによる部分観測可能な環境に対する信頼度更新の学習
- Authors: Raphael Avalos, Florent Delgrange, Ann Now\'e, Guillermo A. P\'erez,
Diederik M. Roijers
- Abstract要約: 本稿では,POMDPの潜在モデルと信念更新の近似を学習するRLアルゴリズムを提案する。
我々のアプローチは、我々の出力された信念が最適な値関数を学習できるようにするため、近似の質に関する理論的保証が伴う。
- 参考スコア(独自算出の注目度): 2.3449131636069898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) are useful tools to
model environments where the full state cannot be perceived by an agent. As
such the agent needs to reason taking into account the past observations and
actions. However, simply remembering the full history is generally intractable
due to the exponential growth in the history space. Keeping a probability
distribution that models the belief over what the true state is can be used as
a sufficient statistic of the history, but its computation requires access to
the model of the environment and is also intractable. Current state-of-the-art
algorithms use Recurrent Neural Networks (RNNs) to compress the
observation-action history aiming to learn a sufficient statistic, but they
lack guarantees of success and can lead to suboptimal policies. To overcome
this, we propose the Wasserstein-Belief-Updater (WBU), an RL algorithm that
learns a latent model of the POMDP and an approximation of the belief update.
Our approach comes with theoretical guarantees on the quality of our
approximation ensuring that our outputted beliefs allow for learning the
optimal value function.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、エージェントによって完全な状態が認識できない環境をモデル化するための有用なツールである。
このように、エージェントは過去の観察と行動を考慮する必要がある。
しかし、歴史空間の指数的な成長のため、単に歴史全体を記憶することは一般的に難解である。
真の状態に関する信念をモデル化する確率分布を維持することは、歴史の十分な統計量として使用できるが、その計算には環境のモデルへのアクセスが必要であり、また難解である。
現在の最先端アルゴリズムはrecurrent neural network(rnn)を使用して、十分な統計値の学習を目的とした観測行動履歴を圧縮するが、成功の保証がなく、最適でないポリシにつながる可能性がある。
そこで本研究では,pomdpの潜在モデルと信念更新の近似を学習するrlアルゴリズムであるwasserstein-belief-updater(wbu)を提案する。
我々のアプローチは、我々の出力された信念が最適な値関数を学習できるように、近似の品質に関する理論的保証が伴う。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Periodic agent-state based Q-learning for POMDPs [23.296159073116264]
広く使われている代替手段は、観測履歴のモデルのない周期的に更新可能な機能であるエージェント状態を使用することである。
本稿では,エージェント状態に基づくQ-ラーニングの変種であるPA(エージェント状態に基づくQ-ラーニング)を提案する。
周期的マルコフ連鎖のアイデアと近似を組み合わせることで、PAが巡回極限に収束し、周期的ポリシーの近似誤差を特徴付けることを厳密に証明する。
論文 参考訳(メタデータ) (2024-07-08T16:58:57Z) - DOMAIN: MilDly COnservative Model-BAsed OfflINe Reinforcement Learning [14.952800864366512]
保守主義は、正確なオフラインデータと不正確なモデルデータのバランスをとるために、アルゴリズムに組み込まれるべきです。
本稿では、モデル不確実性を推定することなく、milDly cOnservative Model-bAsed offlINe RLアルゴリズム(DOMAIN)を提案する。
大規模な実験の結果、DOMAINはD4RLデータセットのベンチマークにおいて、以前のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-09-16T08:39:28Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Knowing the Past to Predict the Future: Reinforcement Virtual Learning [29.47688292868217]
近年,強化学習(RL)に基づく制御システムが注目されている。
本稿では,RLモデルが仮想空間内で自分自身で進化できるような,コスト効率のよいフレームワークを提案する。
提案フレームワークは、ステップバイステップのRLモデルにより、将来の状態を予測し、長期的意思決定のための最適なアクションを選択することができる。
論文 参考訳(メタデータ) (2022-11-02T16:48:14Z) - Flow-based Recurrent Belief State Learning for POMDPs [20.860726518161204]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、実世界のシーケンシャルな意思決定プロセスをモデル化するための原則的で汎用的なフレームワークを提供する。
主な課題は、観測不能な環境状態の確率分布である信念状態をどのように正確に取得するかである。
近年のディープラーニング技術の進歩は、良き信念状態を学ぶ大きな可能性を示している。
論文 参考訳(メタデータ) (2022-05-23T05:29:55Z) - Learning Probabilistic Ordinal Embeddings for Uncertainty-Aware
Regression [91.3373131262391]
不確かさが唯一の確実性である。
伝統的に、直接回帰定式化を考慮し、ある確率分布の族に出力空間を変更することによって不確実性をモデル化する。
現在のレグレッション技術における不確実性をモデル化する方法は、未解決の問題である。
論文 参考訳(メタデータ) (2021-03-25T06:56:09Z) - Learning Interpretable Deep State Space Model for Probabilistic Time
Series Forecasting [98.57851612518758]
確率的時系列予測は、その歴史に基づいて将来の分布を推定する。
本稿では,非線形エミッションモデルと遷移モデルとをネットワークによってパラメータ化した,確率的時系列予測のための深部状態空間モデルを提案する。
実験では,我々のモデルが正確かつ鋭い確率予測を生成することを示す。
論文 参考訳(メタデータ) (2021-01-31T06:49:33Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。