論文の概要: Exploiting Exogenous Structure for Sample-Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.14557v3
- Date: Wed, 05 Feb 2025 15:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:25:15.837447
- Title: Exploiting Exogenous Structure for Sample-Efficient Reinforcement Learning
- Title(参考訳): サンプル効率の良い強化学習のための爆発的外生構造
- Authors: Jia Wan, Sean R. Sinclair, Devavrat Shah, Martin J. Wainwright,
- Abstract要約: マルコフ決定過程(MDPs)の構造クラスであるExo-MDPsについて検討する。
外因性状態はエージェントの行動とは独立して進化し、内因性状態は状態成分と行動の両方に基づいて決定的に進化する。
Exo-MDPは在庫管理、ポートフォリオ管理、ライドシェアリングなどのアプリケーションに有用である。
- 参考スコア(独自算出の注目度): 44.17068570786194
- License:
- Abstract: We study Exo-MDPs, a structured class of Markov Decision Processes (MDPs) where the state space is partitioned into exogenous and endogenous components. Exogenous states evolve stochastically, independent of the agent's actions, while endogenous states evolve deterministically based on both state components and actions. Exo-MDPs are useful for applications including inventory control, portfolio management, and ride-sharing. Our first result is structural, establishing a representational equivalence between the classes of discrete MDPs, Exo-MDPs, and discrete linear mixture MDPs. Specifically, any discrete MDP can be represented as an Exo-MDP, and the transition and reward dynamics can be written as linear functions of the exogenous state distribution, showing that Exo-MDPs are instances of linear mixture MDPs. For unobserved exogenous states, we prove a regret upper bound of $O(H^{3/2}d\sqrt{K})$ over $K$ trajectories of horizon $H$, with $d$ as the size of the exogenous state space, and establish nearly-matching lower bounds. Our findings demonstrate how Exo-MDPs decouple sample complexity from action and endogenous state sizes, and we validate our theoretical insights with experiments on inventory control.
- Abstract(参考訳): 状態空間を外生成分と内生成分に分割したマルコフ決定過程(MDP)の構造クラスであるExo-MDPsについて検討した。
外因性状態はエージェントの行動とは独立して確率的に進化し、内因性状態は状態成分と行動の両方に基づいて決定的に進化する。
Exo-MDPは在庫管理、ポートフォリオ管理、ライドシェアリングなどのアプリケーションに有用である。
最初の結果は構造的であり、離散MDP、Exo-MDP、および離散線形MDPのクラス間の表現的等価性を確立する。
具体的には、任意の離散MDPをExo-MDPとして表すことができ、遷移と報酬のダイナミクスは外因性状態分布の線形関数として記述することができ、Exo-MDPが線形混合MDPの例であることが示される。
保存されていない外因性状態に対しては、$O(H^{3/2}d\sqrt{K})$ over $K$ trajectories of horizon $H$, with $d$ as the size of the exogenous state space, and established almost-matching lower bounds。
以上の結果から,Exo-MDPは試料の複雑さを動作量と内因性状態サイズから分離し,在庫管理実験による理論的知見を検証した。
関連論文リスト
- A New Interpretation of the Certainty-Equivalence Approach for PAC Reinforcement Learning with a Generative Model [5.238591085233903]
本稿では,CEMが実際にTTMの応用と見なされるという驚くべき発見に起因した理論的研究を提案する。
我々は,非定常MPPと定常MPPの双方に対して,CEMの試料複雑度上限を(3)改良した。
また, 有限ホライズン MDP に対する標本複雑性の低い値を示し, 非定常 MDP に対する上界の最小値最適性を確立する。
論文 参考訳(メタデータ) (2025-01-05T20:37:34Z) - Learning a Fast Mixing Exogenous Block MDP using a Single Trajectory [87.62730694973696]
STEELは、単一軌道から外因性ブロックマルコフ決定過程の制御可能なダイナミクスを学習するための、最初の証明可能なサンプル効率アルゴリズムである。
我々は,STEELが正解であり,サンプル効率が良いことを証明し,STEELを2つの玩具問題で実証した。
論文 参考訳(メタデータ) (2024-10-03T21:57:21Z) - Reinforcement Learning with Exogenous States and Rewards [15.18610763024837]
外因性状態変数と報酬は、報酬信号に制御されていない変動を注入することで強化学習を遅くすることができる。
本稿では内因性状態変数と報酬を定式化し、報酬関数が内因性成分と内因性成分に付加的に分解した場合、MDPは2つのプロセスに分解できることを示す。
論文 参考訳(メタデータ) (2023-03-22T23:37:28Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - MMD-ReID: A Simple but Effective Solution for Visible-Thermal Person
ReID [20.08880264104061]
本稿では,モダリティギャップを明示的な差分低減制約によって低減する,シンプルで効果的なMDD-ReIDを提案する。
我々はMDD-ReIDの有効性を定性的かつ定量的に実証するための広範囲な実験を行った。
提案手法は,SYSU-MM01およびRegDBデータセットにおける最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-11-09T11:33:32Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - A Fully Problem-Dependent Regret Lower Bound for Finite-Horizon MDPs [117.82903457289584]
有限水平マルコフ決定過程(MDPs)における新たな問題依存的下界を導出する。
我々の下界は一般の場合よりもかなり小さく、最小の作用ギャップでスケールしないことが示される。
この最後の結果($poly(H)$の条件で、$H$は地平線である)は、楽観的なアルゴリズムのポリシーギャップに基づいて、後悔の意を表すことによって達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-24T13:46:09Z) - Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文 参考訳(メタデータ) (2020-02-27T08:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。