Fugu-MT 論文翻訳(概要): Exploiting Exogenous Structure for Sample-Efficient Reinforcement Learning

論文の概要: Exploiting Exogenous Structure for Sample-Efficient Reinforcement Learning

arxiv url: http://arxiv.org/abs/2409.14557v2
Date: Mon, 14 Oct 2024 23:46:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 22:08:18.156298
Title: Exploiting Exogenous Structure for Sample-Efficient Reinforcement Learning
Title（参考訳）: サンプル効率の良い強化学習のための爆発的外生構造
Authors: Jia Wan, Sean R. Sinclair, Devavrat Shah, Martin J. Wainwright,
Abstract要約: 本研究では,Exo-MDPsとして知られる構造化マルコフ決定過程(MDPs)のクラスについて検討する。 Exo-MDPは、在庫管理、ポートフォリオ管理、電力システム、ライドシェアリングなど、様々なアプリケーションに自然なモデルを提供する。
参考スコア（独自算出の注目度）: 44.17068570786194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study a class of structured Markov Decision Processes (MDPs) known as Exo-MDPs. They are characterized by a partition of the state space into two components: the exogenous states evolve stochastically in a manner not affected by the agent's actions, whereas the endogenous states can be affected by actions, and evolve according to deterministic dynamics involving both the endogenous and exogenous states. Exo-MDPs provide a natural model for various applications, including inventory control, portfolio management, power systems, and ride-sharing, among others. While seemingly restrictive on the surface, our first result establishes that any discrete MDP can be represented as an Exo-MDP. The underlying argument reveals how transition and reward dynamics can be written as linear functions of the exogenous state distribution, showing how Exo-MDPs are instances of linear mixture MDPs, thereby showing a representational equivalence between discrete MDPs, Exo-MDPs, and linear mixture MDPs. The connection between Exo-MDPs and linear mixture MDPs leads to algorithms that are near sample-optimal, with regret guarantees scaling with the (effective) size of the exogenous state space $d$, independent of the sizes of the endogenous state and action spaces, even when the exogenous state is {\em unobserved}. When the exogenous state is unobserved, we establish a regret upper bound of $O(H^{3/2}d\sqrt{K})$ with $K$ trajectories of horizon $H$ and unobserved exogenous state of dimension $d$. We also establish a matching regret lower bound of $\Omega(H^{3/2}d\sqrt{K})$ for non-stationary Exo-MDPs and a lower bound of $\Omega(Hd\sqrt{K})$ for stationary Exo-MDPs. We complement our theoretical findings with an experimental study on inventory control problems.
Abstract（参考訳）: 本研究では,Exo-MDPsとして知られる構造化マルコフ決定過程(MDPs)のクラスについて検討する。内因性状態はエージェントの行動に影響されない方法で確率的に進化し、内因性状態は行動に影響されうるが、内因性状態と外因性状態の両方を含む決定論的ダイナミクスに従って進化する。 Exo-MDPは、在庫管理、ポートフォリオ管理、電力システム、ライドシェアリングなど、さまざまなアプリケーションに自然なモデルを提供する。表面上は限定的であるように思われるが、最初の結果は、任意の離散MDPをExo-MDPとして表現できることを証明した。基礎となる議論は、遷移力学と報酬力学を外因性状態分布の線形関数として記述し、Exo-MDPが線形混合MDPのインスタンスであることを示す。 Exo-MDP と線形混合 MDP との接続は、たとえ外因性状態が観測されていないとしても、内因性状態と行動空間のサイズによらず、外因性状態空間の(有効)サイズでスケールすることを後悔する、サンプル最適に近いアルゴリズムをもたらす。外因性状態が観測されないとき、後悔の上限は$O(H^{3/2}d\sqrt{K})$で、地平線は$K$ trajectories of horizon $H$ and unobserved exogenous state of dimension $d$である。また、非定常 Exo-MDP に対して $\Omega(H^{3/2}d\sqrt{K})$ と、定常 Exo-MDP に対して $\Omega(Hd\sqrt{K})$ と一致する最小境界を確立する。本研究は,在庫管理問題に関する実験的研究により理論的知見を補完するものである。

関連論文リスト

Offline Action-Free Learning of Ex-BMDPs by Comparing Diverse Datasets [87.62730694973696]
本稿では,エージェント間の制御可能な特徴ダイナミクスの違いを利用して表現を学習する,サンプル効率のよいアルゴリズムCRAFTを紹介する。我々はCRAFTの性能を理論的に保証し、おもちゃの例でその実現可能性を示す。
論文参考訳（メタデータ） (2025-03-26T22:05:57Z)
A View of the Certainty-Equivalence Method for PAC RL as an Application of the Trajectory Tree Method [5.238591085233903]
本稿では,CEMが実際にTTMの応用と見なされるという驚くべき発見に起因した理論的研究を提案する。我々は,非定常MPPと定常MPPの双方に対して,CEMの試料複雑度上限を(3)改良した。また, 有限ホライズン MDP に対する標本複雑性の低い値を示し, 非定常 MDP に対する上界の最小値最適性を確立する。
論文参考訳（メタデータ） (2025-01-05T20:37:34Z)
Learning a Fast Mixing Exogenous Block MDP using a Single Trajectory [87.62730694973696]
STEELは、単一軌道から外因性ブロックマルコフ決定過程の制御可能なダイナミクスを学習するための、最初の証明可能なサンプル効率アルゴリズムである。我々は,STEELが正解であり,サンプル効率が良いことを証明し,STEELを2つの玩具問題で実証した。
論文参考訳（メタデータ） (2024-10-03T21:57:21Z)
Moving-Horizon Estimators for Hyperbolic and Parabolic PDEs in 1-D [2.819498895723555]
観測者PDEの数値解の必要性をリアルタイムに除去するために,PDEの移動水平推定器を導入する。我々は、双曲型PDEと放物型PDEの両方のクラスに対して、移動水平状態推定を明示的に生成するPDEバックステッピング法を用いてこれを実現する。
論文参考訳（メタデータ） (2024-01-04T19:55:43Z)
Reinforcement Learning with Exogenous States and Rewards [15.18610763024837]
外因性状態変数と報酬は、報酬信号に制御されていない変動を注入することで強化学習を遅くすることができる。本稿では内因性状態変数と報酬を定式化し、報酬関数が内因性成分と内因性成分に付加的に分解した場合、MDPは2つのプロセスに分解できることを示す。
論文参考訳（メタデータ） (2023-03-22T23:37:28Z)
Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。 POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文参考訳（メタデータ） (2022-10-10T21:11:55Z)
MMD-ReID: A Simple but Effective Solution for Visible-Thermal Person ReID [20.08880264104061]
本稿では,モダリティギャップを明示的な差分低減制約によって低減する,シンプルで効果的なMDD-ReIDを提案する。我々はMDD-ReIDの有効性を定性的かつ定量的に実証するための広範囲な実験を行った。提案手法は,SYSU-MM01およびRegDBデータセットにおける最先端の手法よりも優れている。
論文参考訳（メタデータ） (2021-11-09T11:33:32Z)
Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文参考訳（メタデータ） (2021-10-17T15:21:27Z)
A Fully Problem-Dependent Regret Lower Bound for Finite-Horizon MDPs [117.82903457289584]
有限水平マルコフ決定過程(MDPs)における新たな問題依存的下界を導出する。我々の下界は一般の場合よりもかなり小さく、最小の作用ギャップでスケールしないことが示される。この最後の結果($poly(H)$の条件で、$H$は地平線である)は、楽観的なアルゴリズムのポリシーギャップに基づいて、後悔の意を表すことによって達成可能であることを示す。
論文参考訳（メタデータ） (2021-06-24T13:46:09Z)
Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文参考訳（メタデータ） (2020-09-21T09:11:36Z)
Plannable Approximations to MDP Homomorphisms: Equivariance under Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文参考訳（メタデータ） (2020-02-27T08:29:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。