論文の概要: Reinforcement Learning with Exogenous States and Rewards
- arxiv url: http://arxiv.org/abs/2303.12957v1
- Date: Wed, 22 Mar 2023 23:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 16:08:29.442621
- Title: Reinforcement Learning with Exogenous States and Rewards
- Title(参考訳): 外因性国家とリワードによる強化学習
- Authors: George Trimponias and Thomas G. Dietterich
- Abstract要約: 外因性状態変数と報酬は、報酬信号に制御されていない変動を注入することで強化学習を遅くすることができる。
本稿では内因性状態変数と報酬を定式化し、報酬関数が内因性成分と内因性成分に付加的に分解した場合、MDPは2つのプロセスに分解できることを示す。
- 参考スコア(独自算出の注目度): 15.18610763024837
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Exogenous state variables and rewards can slow reinforcement learning by
injecting uncontrolled variation into the reward signal. This paper formalizes
exogenous state variables and rewards and shows that if the reward function
decomposes additively into endogenous and exogenous components, the MDP can be
decomposed into an exogenous Markov Reward Process (based on the exogenous
reward) and an endogenous Markov Decision Process (optimizing the endogenous
reward). Any optimal policy for the endogenous MDP is also an optimal policy
for the original MDP, but because the endogenous reward typically has reduced
variance, the endogenous MDP is easier to solve. We study settings where the
decomposition of the state space into exogenous and endogenous state spaces is
not given but must be discovered. The paper introduces and proves correctness
of algorithms for discovering the exogenous and endogenous subspaces of the
state space when they are mixed through linear combination. These algorithms
can be applied during reinforcement learning to discover the exogenous space,
remove the exogenous reward, and focus reinforcement learning on the endogenous
MDP. Experiments on a variety of challenging synthetic MDPs show that these
methods, applied online, discover large exogenous state spaces and produce
substantial speedups in reinforcement learning.
- Abstract(参考訳): 外因的状態変数と報酬は、報酬信号に制御不能な変動を注入することで強化学習を遅くすることができる。
本稿では, 報酬関数が内因性および外因性成分に付加的に分解される場合, mdpは外因性マルコフ報酬過程(外因性報酬に基づく)と内因性マルコフ決定過程(内因性報酬を最適化する)に分解できることを示す。
内因性MDPの最適政策は、元のMDPの最適政策でもあるが、内因性報酬は通常、ばらつきを減少させるため、内因性MDPの解決が容易である。
状態空間を外因性および内因性状態空間に分解することは与えられず、発見しなければならない状況について検討する。
線形結合によって混合された状態空間の外因性部分空間や内因性部分空間を発見するアルゴリズムを導入し,その正当性を証明する。
これらのアルゴリズムは、強化学習中に外因性空間を発見し、外因性報酬を取り除き、内因性MDPに強化学習を集中させる。
様々な難解な合成MDPの実験により、これらの手法がオンラインに適用され、大規模な外因性状態空間を発見し、強化学習においてかなりのスピードアップをもたらすことが示された。
関連論文リスト
- Sub-DM:Subspace Diffusion Model with Orthogonal Decomposition for MRI Reconstruction [13.418240070456987]
サブスペース拡散モデル (Sub-DM) は、k空間のデータ分布がノイズに向かって進化するにつれて、サブスペースへの射影による拡散過程を制限するサブスペース拡散モデルである。
k空間データのコンプレックスと高次元特性によって引き起こされる推論問題を回避する。
これにより、異なる空間における拡散過程が相互フィードバック機構を通じてモデルを洗練することができ、複雑なk空間データを扱う場合でも、アクカレートの事前学習が可能になる。
論文 参考訳(メタデータ) (2024-11-06T08:33:07Z) - Exploiting Exogenous Structure for Sample-Efficient Reinforcement Learning [44.17068570786194]
本研究では,Exo-MDPsとして知られる構造化マルコフ決定過程(MDPs)のクラスについて検討する。
Exo-MDPは、在庫管理、ポートフォリオ管理、電力システム、ライドシェアリングなど、様々なアプリケーションに自然なモデルを提供する。
論文 参考訳(メタデータ) (2024-09-22T18:45:38Z) - FP-IRL: Fokker-Planck-based Inverse Reinforcement Learning -- A
Physics-Constrained Approach to Markov Decision Processes [0.5735035463793008]
逆強化学習(英: Inverse Reinforcement Learning、IRL)は、自律エージェントの行動の基礎となる根拠を明らかにする技術である。
IRLは、観測されたエージェント軌道からマルコフ決定過程(MDP)の未知の報酬関数を推定しようとする。
我々は、観測軌道のみを用いて遷移関数と報酬関数を同時に推論できる新しいIRLアルゴリズムFP-IRLを作成する。
論文 参考訳(メタデータ) (2023-06-17T18:28:03Z) - Reconstructing Graph Diffusion History from a Single Snapshot [87.20550495678907]
A single SnapsHot (DASH) から拡散履歴を再構築するための新しいバリセンターの定式化を提案する。
本研究では,拡散パラメータ推定のNP硬度により,拡散パラメータの推定誤差が避けられないことを証明する。
また、DITTO(Diffusion hitting Times with Optimal proposal)という効果的な解法も開発している。
論文 参考訳(メタデータ) (2023-06-01T09:39:32Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Exploring Chemical Space with Score-based Out-of-distribution Generation [57.15855198512551]
生成微分方程式(SDE)にアウト・オブ・ディストリビューション制御を組み込んだスコアベース拡散方式を提案する。
いくつかの新しい分子は現実世界の薬物の基本的な要件を満たしていないため、MOODは特性予測器からの勾配を利用して条件付き生成を行う。
我々はMOODがトレーニング分布を超えて化学空間を探索できることを実験的に検証し、既存の方法で見いだされた分子、そして元のトレーニングプールの上位0.01%までも生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-06T06:17:11Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Targeted free energy estimation via learned mappings [66.20146549150475]
自由エネルギー摂動 (FEP) は60年以上前にズワンツィヒによって自由エネルギー差を推定する方法として提案された。
FEPは、分布間の十分な重複の必要性という厳しい制限に悩まされている。
目標自由エネルギー摂動(Targeted Free Energy Perturbation)と呼ばれるこの問題を緩和するための1つの戦略は、オーバーラップを増やすために構成空間の高次元マッピングを使用する。
論文 参考訳(メタデータ) (2020-02-12T11:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。