論文の概要: Reinforcement Learning in Non-Markovian Environments
- arxiv url: http://arxiv.org/abs/2211.01595v2
- Date: Fri, 23 Jun 2023 06:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 17:45:19.874491
- Title: Reinforcement Learning in Non-Markovian Environments
- Title(参考訳): 非マルコフ環境における強化学習
- Authors: Siddharth Chandak, Pratik Shah, Vivek S Borkar, Parth Dodhia
- Abstract要約: 本稿では,この定式化にQ-ラーニングアルゴリズムを適用した場合,非マルコビアン性による誤差を列挙する。
任意の非マルコフ環境下で強化学習を行うためにヴァン・ロイと共著者によって開発された新しいパラダイムに動機付けられ、関連する定式化を提案し、観測の非マルコフ性に起因する誤りを明示的に特定する。
- 参考スコア(独自算出の注目度): 0.24499092754102875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the novel paradigm developed by Van Roy and coauthors for
reinforcement learning in arbitrary non-Markovian environments, we propose a
related formulation and explicitly pin down the error caused by
non-Markovianity of observations when the Q-learning algorithm is applied on
this formulation. Based on this observation, we propose that the criterion for
agent design should be to seek good approximations for certain conditional
laws. Inspired by classical stochastic control, we show that our problem
reduces to that of recursive computation of approximate sufficient statistics.
This leads to an autoencoder-based scheme for agent design which is then
numerically tested on partially observed reinforcement learning environments.
- Abstract(参考訳): 任意の非マルコフ環境における強化学習のためにvan royと共著者によって開発された新しいパラダイムに動機づけられ、q-learningアルゴリズムを適用した際の観測の非マルコフ性に起因する誤りを、関連する定式化し、明確にピン留めする。
この観察に基づいて,エージェント設計の基準は,ある条件法則に対してよい近似を求めるべきであることを示唆する。
古典的確率制御に着想を得て, 近似的統計量の再帰的計算に還元されることを示す。
これにより、エージェント設計のためのオートエンコーダベースのスキームが実現され、部分的に観察された強化学習環境上で数値的にテストされる。
関連論文リスト
- Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning [0.5999777817331317]
データ同化は、気候予報や天気予報から自動運転車の軌道計画まで、様々な応用において重要な役割を果たしている。
近年の進歩は、主に教師付き学習フレームワーク内で、この領域でディープラーニングアプローチが出現している。
本研究では、強化学習(RL)を用いて状態変数の完全あるいは部分的観測を用いて状態修正を行う新しいDA戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T06:53:36Z) - Bayesian Risk-Averse Q-Learning with Streaming Observations [7.330349128557128]
我々は,学習エージェントが模擬学習環境から学習する,堅牢な強化学習問題を考える。
エージェントの制御外にある実環境からの観測が定期的に到着する。
実環境からのストリーミング観測でBRMDPを解くための多段階ベイズリスク逆Q-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-18T20:48:50Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Doubly Robust Counterfactual Classification [1.8907108368038217]
本研究では,仮説的(事実とは対照的に)なシナリオ下での意思決定のための新しいツールとして,カウンターファクトの分類について検討する。
本稿では, 一般対物分類器のための2次ロバストな非パラメトリック推定器を提案する。
論文 参考訳(メタデータ) (2023-01-15T22:04:46Z) - Evaluating Disentanglement in Generative Models Without Knowledge of
Latent Factors [71.79984112148865]
本稿では,学習中に提示される学習力学に基づいて生成モデルのランキング付けを行う手法を提案する。
本手法は,近年の解離の理論的特徴から着想を得たものであり,その根底にある潜伏因子の監督は不要である。
論文 参考訳(メタデータ) (2022-10-04T17:27:29Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Robust Reinforcement Learning with Distributional Risk-averse
formulation [1.2891210250935146]
リスク・アバースの近似式を用いて,ロバスト強化学習を$Phi$-divergenceで制約する。
古典的強化学習の定式化は、目的の標準偏差ペナル化を用いて堅牢化できることを示す。
論文 参考訳(メタデータ) (2022-06-14T13:33:58Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - Composing Normalizing Flows for Inverse Problems [89.06155049265641]
本稿では,2つの流れモデルの合成として,対象条件を推定する近似推論フレームワークを提案する。
本手法は,様々な逆問題に対して評価し,不確実性のある高品質な試料を作製することを示した。
論文 参考訳(メタデータ) (2020-02-26T19:01:11Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。