論文の概要: Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy
- arxiv url: http://arxiv.org/abs/2407.07333v1
- Date: Wed, 10 Jul 2024 03:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 18:01:18.563917
- Title: Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy
- Title(参考訳): 逐次決定過程におけるLambda Disrepancyによる部分観測可能性の緩和
- Authors: Cameron Allen, Aaron Kirtland, Ruo Yu Tao, Sam Lobel, Daniel Scott, Nicholas Petrocelli, Omer Gottesman, Ronald Parr, Michael L. Littman, George Konidaris,
- Abstract要約: 強化学習アルゴリズムは通常、環境力学と値関数がマルコフ状態表現の言葉で表現できるという仮定に依存する。
基礎となる、観測不可能な状態空間へのアクセスや知識を必要とせずに、両方の目的を達成することのできるメトリクスを導入します。
私たちは、$lambda$-discrepancyがすべてのMarkov決定プロセスで完全にゼロであり、ほぼ常に、部分的に観察可能な環境の幅広いクラスではゼロではないことを証明しています。
- 参考スコア(独自算出の注目度): 23.348746791650335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms typically rely on the assumption that the environment dynamics and value function can be expressed in terms of a Markovian state representation. However, when state information is only partially observable, how can an agent learn such a state representation, and how can it detect when it has found one? We introduce a metric that can accomplish both objectives, without requiring access to--or knowledge of--an underlying, unobservable state space. Our metric, the $\lambda$-discrepancy, is the difference between two distinct temporal difference (TD) value estimates, each computed using TD($\lambda$) with a different value of $\lambda$. Since TD($\lambda$=0) makes an implicit Markov assumption and TD($\lambda$=1) does not, a discrepancy between these estimates is a potential indicator of a non-Markovian state representation. Indeed, we prove that the $\lambda$-discrepancy is exactly zero for all Markov decision processes and almost always non-zero for a broad class of partially observable environments. We also demonstrate empirically that, once detected, minimizing the $\lambda$-discrepancy can help with learning a memory function to mitigate the corresponding partial observability. We then train a reinforcement learning agent that simultaneously constructs two recurrent value networks with different $\lambda$ parameters and minimizes the difference between them as an auxiliary loss. The approach scales to challenging partially observable domains, where the resulting agent frequently performs significantly better (and never performs worse) than a baseline recurrent agent with only a single value network.
- Abstract(参考訳): 強化学習アルゴリズムは通常、環境力学と値関数がマルコフ状態表現の言葉で表現できるという仮定に依存する。
しかし、状態情報が部分的にしか観測できない場合、エージェントはそのような状態表現をどうやって学べばいいのか。
基礎となる、観測不可能な状態空間へのアクセスや知識を必要とせずに、両方の目的を達成することのできるメトリクスを導入します。
我々の計量である$\lambda$-discrepancyは、2つの異なる時間差(TD)値の差であり、それぞれが$\lambda$の値を持つTD($\lambda$)を使用して計算される。
TD($\lambda$=0) は暗黙的なマルコフの仮定をし、TD($\lambda$=1) はそうでないので、これらの推定との相違は非マルコフ状態表現の潜在的指標である。
実際、$\lambda$-discrepancy はすべての Markov 決定プロセスで完全にゼロであり、部分的に観測可能な環境の広いクラスではほとんどゼロではないことを証明しています。
また、一度検出されると、$\lambda$-discrepancyを最小化することは、対応する部分観測可能性を軽減するためにメモリ関数を学ぶのに役立つことを実証的に示す。
次に、異なる$\lambda$パラメータを持つ2つの繰り返し値ネットワークを同時に構築する強化学習エージェントを訓練し、それらの差を補助損失として最小化する。
このアプローチは部分的に観測可能なドメインにスケールし、結果のエージェントは単一の値ネットワークしか持たないベースラインリカレントエージェントよりも、大幅にパフォーマンスが向上する(かつ、悪くはならない)。
関連論文リスト
- Extracting Dynamical Maps of Non-Markovian Open Quantum Systems [0.0]
Lambda(tau)$は、システムと1つ以上の熱浴を、弱くも強くもない強度で突然結合することによって生じることを示す。
我々はChoi-Jamiolkowski同型を使い、$hatLambda(tau)$を完全に再構成することができる。
スピンレスフェルミ連鎖と単一不純物アンダーソンモデルとの相互作用の数値的な例は、我々のアプローチが大きなスピードアップをもたらす状態を示す。
論文 参考訳(メタデータ) (2024-09-25T16:09:03Z) - Accelerating the Global Aggregation of Local Explanations [43.787092409977724]
我々は,Anchorアルゴリズムのグローバルアグリゲーションを高速化する手法を考案した。
非常に軽度な品質の損失に対して、計算を最大30$times$で高速化し、計算時間を数時間から数分に短縮できることを示す。
論文 参考訳(メタデータ) (2023-12-13T09:03:01Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Faster Convergence of Local SGD for Over-Parameterized Models [1.5504102675587357]
現代の機械学習アーキテクチャは、しばしば非常に表現力が高い。
不均一なデータ設定における過パラメータ化関数に対する局所SGD(またはFedAvg)の収束を解析する。
一般凸損失関数に対しては、$O(K/T)$の誤差が成立する。
非剰余関数に対しては、どちらの場合も$O(K/T)$の誤差が証明される。
確立された収束率を、合理的に小さなステップサイズで一定の要因に密着した問題インスタンスを提供することで、結果を完成させる。
論文 参考訳(メタデータ) (2022-01-30T04:05:56Z) - Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文 参考訳(メタデータ) (2021-10-28T16:12:33Z) - Probabilistic semi-nonnegative matrix factorization: a Skellam-based
framework [0.7310043452300736]
我々は,Skellam-SNMFと呼ばれる半負行列分解(SNMF)に対処する新しい確率モデルを提案する。
先行成分,スケラム分布型隠れ変数,観測データからなる階層的生成モデルである。
2つの推論アルゴリズムが導出される: 最大エンファ後推定のための期待最大化(EM)アルゴリズムと、完全ベイズ推定のためのヴァリベイズEM(VBEM)アルゴリズム。
論文 参考訳(メタデータ) (2021-07-07T15:56:22Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Improved Sample Complexity for Incremental Autonomous Exploration in
MDPs [132.88757893161699]
我々は $epsilon$-optimal 目標条件付きポリシーのセットを学び、$ L$ ステップ内で段階的に到達可能なすべての状態を達成します。
DisCoは、コストに敏感な最短経路問題に対して$epsilon/c_min$-optimalポリシーを返すことができる最初のアルゴリズムです。
論文 参考訳(メタデータ) (2020-12-29T14:06:09Z) - Temporal Difference Learning as Gradient Splitting [15.321579527891457]
勾配降下の収束証明は時間差学習にほぼ冗長に適用可能であることを示す。
値関数の平均を推定するTD学習における小さな変化は、1/(1-ガンマ)$1の乗算項のみを無作為に無視する収束時間を持つことを示す。
論文 参考訳(メタデータ) (2020-10-27T22:50:39Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。