論文の概要: How memory architecture affects performance and learning in simple
POMDPs
- arxiv url: http://arxiv.org/abs/2106.08849v1
- Date: Wed, 16 Jun 2021 15:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 23:10:03.968117
- Title: How memory architecture affects performance and learning in simple
POMDPs
- Title(参考訳): 単純なPOMDPにおけるメモリアーキテクチャが性能と学習に与える影響
- Authors: Mario Geiger, Christophe Eloy and Matthieu Wyart
- Abstract要約: 強化学習は、エージェントの観察が部分的またはうるさいときにさらに複雑になる。
このケースは、部分的に観察可能なプロセス(POMDP)に対応する。
- 参考スコア(独自算出の注目度): 4.318555434063275
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning is made much more complex when the agent's observation
is partial or noisy. This case corresponds to a partially observable Markov
decision process (POMDP). One strategy to seek good performance in POMDPs is to
endow the agent with a finite memory, whose update is governed by the policy.
However, policy optimization is non-convex in that case and can lead to poor
training performance for random initialization. The performance can be
empirically improved by constraining the memory architecture, then sacrificing
optimality to facilitate training. Here we study this trade-off in the two-arm
bandit problem, and compare two extreme cases: (i) the random access memory
where any transitions between $M$ memory states are allowed and (ii) a fixed
memory where the agent can access its last $m$ actions and rewards. For (i),
the probability $q$ to play the worst arm is known to be exponentially small in
$M$ for the optimal policy. Our main result is to show that similar performance
can be reached for (ii) as well, despite the simplicity of the memory
architecture: using a conjecture on Gray-ordered binary necklaces, we find
policies for which $q$ is exponentially small in $2^m$ i.e. $q\sim\alpha^{2^m}$
for some $\alpha < 1$. Interestingly, we observe empirically that training from
random initialization leads to very poor results for (i), and significantly
better results for (ii).
- Abstract(参考訳): 強化学習は、エージェントの観察が部分的あるいは騒がしい場合、はるかに複雑になる。
このケースは部分的に観測可能なマルコフ決定過程(POMDP)に対応する。
POMDPの優れたパフォーマンスを求める戦略の1つは、エージェントに有限メモリを付与することであり、その更新はポリシーによって管理される。
しかし、ポリシー最適化は非凸であり、ランダム初期化のトレーニング性能が低下する可能性がある。
メモリアーキテクチャを制約し、トレーニングを容易にするために最適性を犠牲にすることで、パフォーマンスを実証的に改善することができる。
ここで、二本腕のバンディット問題におけるこのトレードオフを調べ、2つの極端なケースを比較する: (i) $m$のメモリ状態間の遷移が許容されるランダムアクセスメモリと (ii) エージェントが最後の$m$アクションと報酬にアクセスできる固定メモリである。
i) に対して、最悪のアームをプレイする確率$q$は、最適ポリシーに対して$M$で指数関数的に小さいことが知られている。
我々の主な成果は、メモリアーキテクチャの単純さにもかかわらず、(ii)も同様のパフォーマンスに到達できることを示します: Gray-ordered binary necklacesの予想を使って、$q$が指数関数的に$2^m$で小さいポリシーを見つけます。
$q\sim\alpha^{2^m}$ for some $\alpha < 1$.
興味深いことに,ランダム初期化からのトレーニングは (i) に非常に悪い結果をもたらし, (ii) に有意によい結果をもたらすことを経験的に観察した。
関連論文リスト
- SGD with memory: fundamental properties and stochastic acceleration [15.25021403154845]
非確率設定では、損失収束$L_tsim C_Lt-xiの最適指数$xi$は、平滑なGDの倍である。
メモリ1のアルゴリズムでは、安定性を維持しながら、任意に$C_L$を小さくすることができる。
論文 参考訳(メタデータ) (2024-10-05T16:57:40Z) - Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization [11.11876897168701]
本稿では,次数$tildemathcalO(mathrmpoly(H)sqrtSAT)$の残差を求めるアルゴリズムを提案する。
提案したアルゴリズムと分析は、占有対策によって与えられる典型的なツールを完全に回避する。
論文 参考訳(メタデータ) (2024-07-08T08:06:45Z) - Provably Efficient Reinforcement Learning with Multinomial Logit Function Approximation [67.8414514524356]
本稿では,MNL関数近似を用いたMDPの新しいクラスについて検討し,状態空間上の確率分布の正当性を保証する。
非線型関数の導入は、計算効率と統計効率の両方において大きな課題を提起する。
我々は,$mathcalO(1)$$コストで同じ後悔を実現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-27T11:31:54Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Reinforcement Learning in a Birth and Death Process: Breaking the
Dependence on the State Space [0.0]
我々は、出生・死亡構造を有するMDPにおける未報告の強化学習の後悔を再考する。
本研究の結果から,従来の学習アルゴリズム sc Ucrl2 のやや遅れたバージョンに対する後悔は,実際には $tildemathcalO(sqrtEAT)$ で表される。
論文 参考訳(メタデータ) (2023-02-21T13:28:37Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - GraB: Finding Provably Better Data Permutations than Random Reshuffling [39.067886932979874]
ランダムリシャッフルはデータセットを各エポックにランダムに置換するが、非置換サンプリングよりも高速な収束をもたらすため、モデルトレーニングでは広く採用されている。
最近の研究では、厳密に選択されたデータ順序付けは、より多くの計算とメモリを使用するコストで、経験的に収束をさらにスピードアップさせることができることが示されている。
グラディエント・バランシング・アルゴリズム(GraB)は、トレーニングと検証の両方のパフォーマンスにおいて、ランダムなリシャッフルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T04:17:32Z) - Agnostic Reinforcement Learning with Low-Rank MDPs and Rich Observations [79.66404989555566]
我々は、リッチな観測空間を持つより現実的な非依存的RLの設定と、近似的ポリシーを含まないような固定されたポリシーのクラス$Pi$を考える。
我々は,MDPの階数$d$の誤差が有界な設定のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-22T03:20:40Z) - Improved Regret Bound and Experience Replay in Regularized Policy
Iteration [22.621710838468097]
無限ホライゾンマルコフ決定過程(mdps)における学習アルゴリズムを関数近似を用いて検討する。
まず、ほぼ同一の仮定の下で、Politexアルゴリズムの後悔解析を$O(T3/4)$から$O(sqrtT)$にシャープできることを示す。
その結果、計算効率の良いアルゴリズムに対して、最初の高い確率の$o(sqrtt)$ regretバウンドが得られる。
論文 参考訳(メタデータ) (2021-02-25T00:55:07Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z) - Learning Near Optimal Policies with Low Inherent Bellman Error [115.16037976819331]
エピソード強化学習における近似線形作用値関数を用いた探索問題について検討する。
我々は,検討した設定に対して最適な統計率を達成するアルゴリズムを用いて,Emphbatch仮定のみを用いて探索を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-02-29T02:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。