論文の概要: Reconciling Rewards with Predictive State Representations
- arxiv url: http://arxiv.org/abs/2106.03926v1
- Date: Mon, 7 Jun 2021 19:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 12:03:29.667107
- Title: Reconciling Rewards with Predictive State Representations
- Title(参考訳): 予測状態表現による報酬の調整
- Authors: Andrea Baisero and Christopher Amato
- Abstract要約: 予測状態表現(英: Predictive state representations、PSR)は、制御された非マルコフ観測シーケンスのモデルであり、下層の潜在状態に依存することなく、POMDP観測を管理する同じ生成過程を示す。
PSRは報酬の概念を無視しており、制御、計画、強化学習のためのPSRモデルの汎用性を損なう。
報奨予測状態表現(R-PSR)を提案する。これはPSRの一般化であり、観測と報奨の両方を正確にモデル化し、R-PSRの値を開発する。
- 参考スコア(独自算出の注目度): 17.48572546628464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predictive state representations (PSRs) are models of controlled non-Markov
observation sequences which exhibit the same generative process governing POMDP
observations without relying on an underlying latent state. In that respect, a
PSR is indistinguishable from the corresponding POMDP. However, PSRs
notoriously ignore the notion of rewards, which undermines the general utility
of PSR models for control, planning, or reinforcement learning. Therefore, we
describe a sufficient and necessary accuracy condition which determines whether
a PSR is able to accurately model POMDP rewards, we show that rewards can be
approximated even when the accuracy condition is not satisfied, and we find
that a non-trivial number of POMDPs taken from a well-known third-party
repository do not satisfy the accuracy condition. We propose reward-predictive
state representations (R-PSRs), a generalization of PSRs which accurately
models both observations and rewards, and develop value iteration for R-PSRs.
We show that there is a mismatch between optimal POMDP policies and the optimal
PSR policies derived from approximate rewards. On the other hand, optimal R-PSR
policies perfectly match optimal POMDP policies, reconfirming R-PSRs as
accurate state-less generative models of observations and rewards.
- Abstract(参考訳): 予測状態表現(英語版)(psrs)は制御された非マルコフ観測シーケンスのモデルであり、基礎となる潜在状態に依存することなくpomdp観測を管理する同じ生成過程を示す。
その点において、PSRは対応するPOMDPと区別できない。
しかしながら、PSRは報酬の概念を無視しており、制御、計画、強化学習のためのPSRモデルの汎用性を損なう。
そこで,psrがpomdp報酬を正確にモデル化できるかどうかを判断するために必要な精度条件を述べるとともに,精度条件が満たされていない場合でも報酬を近似できることを示すとともに,既知の第三者リポジトリから取得したpomdpの非自明な数が精度条件を満たさないことを示す。
報奨予測状態表現(R-PSR)は、観測と報奨の両方を正確にモデル化したPSRの一般化であり、R-PSRの値反復を開発する。
最適POMDPポリシーと近似報酬から導かれる最適PSRポリシーとの間にはミスマッチがあることが示される。
一方、最適なR-PSRポリシーは最適なPMDPポリシーと完全に一致し、R-PSRを正確なステートレス生成モデルとして再確認する。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Partially Observable RL with B-Stability: Unified Structural Condition
and Sharp Sample-Efficient Algorithms [25.658930892561735]
本稿では、予測状態表現(PSR)の一般設定における部分観測可能RLの3つの側面について述べる。
本稿では,emphB安定性(emphB-stability)と呼ばれるPSRの自然かつ統一的な構造条件を提案する。
本稿では,B-stable PSRが関連する問題パラメータのサンプルで学習できることを示し,上記のサブクラスをインスタンス化すると,サンプルの複雑さが向上することを示した。
論文 参考訳(メタデータ) (2022-09-29T17:51:51Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z) - Deep PQR: Solving Inverse Reinforcement Learning using Anchor Actions [7.979704497050649]
提案手法は,政策,Q$関数,深層学習によるReward関数を逐次推定するので,PQRと命名する。
PQRは報酬が状態のみに依存するのではなく、アクションの選択に依存していると仮定する。
論文 参考訳(メタデータ) (2020-07-15T02:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。