論文の概要: Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy
- arxiv url: http://arxiv.org/abs/2407.07333v3
- Date: Thu, 14 Nov 2024 22:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:36:45.772578
- Title: Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy
- Title(参考訳): 逐次決定過程におけるLambda Disrepancyによる部分観測可能性の緩和
- Authors: Cameron Allen, Aaron Kirtland, Ruo Yu Tao, Sam Lobel, Daniel Scott, Nicholas Petrocelli, Omer Gottesman, Ronald Parr, Michael L. Littman, George Konidaris,
- Abstract要約: 強化学習アルゴリズムは通常、環境力学と値関数がマルコフ状態表現の言葉で表現できるという仮定に依存する。
基礎となる、観測不可能な状態空間へのアクセスや知識を必要とせずに、両方の目的を達成できるメトリクスを導入します。
私たちは、$lambda$-discrepancyがすべてのMarkov決定プロセスで完全にゼロであり、ほぼ常に、部分的に観察可能な環境の幅広いクラスではゼロではないことを証明しています。
- 参考スコア(独自算出の注目度): 23.348746791650335
- License:
- Abstract: Reinforcement learning algorithms typically rely on the assumption that the environment dynamics and value function can be expressed in terms of a Markovian state representation. However, when state information is only partially observable, how can an agent learn such a state representation, and how can it detect when it has found one? We introduce a metric that can accomplish both objectives, without requiring access to -- or knowledge of -- an underlying, unobservable state space. Our metric, the $\lambda$-discrepancy, is the difference between two distinct temporal difference (TD) value estimates, each computed using TD($\lambda$) with a different value of $\lambda$. Since TD($\lambda{=}0$) makes an implicit Markov assumption and TD($\lambda{=}1$) does not, a discrepancy between these estimates is a potential indicator of a non-Markovian state representation. Indeed, we prove that the $\lambda$-discrepancy is exactly zero for all Markov decision processes and almost always non-zero for a broad class of partially observable environments. We also demonstrate empirically that, once detected, minimizing the $\lambda$-discrepancy can help with learning a memory function to mitigate the corresponding partial observability. We then train a reinforcement learning agent that simultaneously constructs two recurrent value networks with different $\lambda$ parameters and minimizes the difference between them as an auxiliary loss. The approach scales to challenging partially observable domains, where the resulting agent frequently performs significantly better (and never performs worse) than a baseline recurrent agent with only a single value network.
- Abstract(参考訳): 強化学習アルゴリズムは通常、環境力学と値関数がマルコフ状態表現の言葉で表現できるという仮定に依存する。
しかし、状態情報が部分的にしか観測できない場合、エージェントはそのような状態表現をどうやって学べばいいのか。
基礎となる、観測不可能な状態空間へのアクセスや知識を必要とせずに、両方の目的を達成できるメトリクスを導入します。
私たちの測定値である$\lambda$-discrepancyは、2つの異なる時間差(TD)値の差であり、それぞれが$\lambda$の値を持つTD($\lambda$)を使用して計算されます。
TD($\lambda{=}0$) は暗黙的なマルコフの仮定をし、TD($\lambda{=}1$) はそうでないので、これらの推定との相違は非マルコフ状態表現の潜在的指標である。
実際、$\lambda$-discrepancy はすべての Markov 決定プロセスで完全にゼロであり、部分的に観測可能な環境の広いクラスではほとんどゼロではないことを証明しています。
また、一度検出されると、$\lambda$-discrepancyを最小化することは、対応する部分観測可能性を軽減するためにメモリ関数を学ぶのに役立つことを実証的に示す。
次に、異なる$\lambda$パラメータを持つ2つの繰り返し値ネットワークを同時に構築する強化学習エージェントを訓練し、それらの差を補助損失として最小化する。
このアプローチは部分的に観測可能なドメインにスケールし、結果のエージェントは単一の値ネットワークしか持たないベースラインリカレントエージェントよりも、大幅にパフォーマンスが向上する(かつ、悪くはならない)。
関連論文リスト
- Policy evaluation from a single path: Multi-step methods, mixing and
mis-specification [45.88067550131531]
無限水平$gamma$-discounted Markov rewardプロセスの値関数の非パラメトリック推定について検討した。
カーネルベースの多段階時間差推定の一般的なファミリーに対して、漸近的でない保証を提供する。
論文 参考訳(メタデータ) (2022-11-07T23:15:25Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Faster Convergence of Local SGD for Over-Parameterized Models [1.5504102675587357]
現代の機械学習アーキテクチャは、しばしば非常に表現力が高い。
不均一なデータ設定における過パラメータ化関数に対する局所SGD(またはFedAvg)の収束を解析する。
一般凸損失関数に対しては、$O(K/T)$の誤差が成立する。
非剰余関数に対しては、どちらの場合も$O(K/T)$の誤差が証明される。
確立された収束率を、合理的に小さなステップサイズで一定の要因に密着した問題インスタンスを提供することで、結果を完成させる。
論文 参考訳(メタデータ) (2022-01-30T04:05:56Z) - Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文 参考訳(メタデータ) (2021-10-28T16:12:33Z) - Online Selective Classification with Limited Feedback [82.68009460301585]
オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的分類について検討する。
私たちが考慮している設定の健全な2つの側面は、データが不可避である可能性があるため、データは不可避である可能性があるということです。
smash$tildeO(T1-mu)$ over abstention against Adaptive adversaries. smash$tildeO(T1-mu)$ incurring smash$tildeO(T1-mu)$ over abstention。
論文 参考訳(メタデータ) (2021-10-27T08:00:53Z) - Probabilistic semi-nonnegative matrix factorization: a Skellam-based
framework [0.7310043452300736]
我々は,Skellam-SNMFと呼ばれる半負行列分解(SNMF)に対処する新しい確率モデルを提案する。
先行成分,スケラム分布型隠れ変数,観測データからなる階層的生成モデルである。
2つの推論アルゴリズムが導出される: 最大エンファ後推定のための期待最大化(EM)アルゴリズムと、完全ベイズ推定のためのヴァリベイズEM(VBEM)アルゴリズム。
論文 参考訳(メタデータ) (2021-07-07T15:56:22Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Distributed TD(0) with Almost No Communication [13.578454059496847]
線形関数近似を用いた分散td(0)の新しい非漸近解析法を提案する。
我々のアプローチは"ワンショット平均化"に依存しており、$N$エージェントはTD(0)のローカルコピーを実行し、最後に1回だけ結果を平均する。
論文 参考訳(メタデータ) (2021-04-16T02:21:11Z) - Improved Sample Complexity for Incremental Autonomous Exploration in
MDPs [132.88757893161699]
我々は $epsilon$-optimal 目標条件付きポリシーのセットを学び、$ L$ ステップ内で段階的に到達可能なすべての状態を達成します。
DisCoは、コストに敏感な最短経路問題に対して$epsilon/c_min$-optimalポリシーを返すことができる最初のアルゴリズムです。
論文 参考訳(メタデータ) (2020-12-29T14:06:09Z) - Temporal Difference Learning as Gradient Splitting [15.321579527891457]
勾配降下の収束証明は時間差学習にほぼ冗長に適用可能であることを示す。
値関数の平均を推定するTD学習における小さな変化は、1/(1-ガンマ)$1の乗算項のみを無作為に無視する収束時間を持つことを示す。
論文 参考訳(メタデータ) (2020-10-27T22:50:39Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。