論文の概要: Sequential Knockoffs for Variable Selection in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.14281v2
- Date: Tue, 30 Jul 2024 15:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 23:09:12.646296
- Title: Sequential Knockoffs for Variable Selection in Reinforcement Learning
- Title(参考訳): 強化学習における可変選択のための逐次ノックオフ
- Authors: Tao Ma, Jin Zhu, Hengrui Cai, Zhengling Qi, Yunxiao Chen, Chengchun Shi, Eric B. Laber,
- Abstract要約: マルコフ決定過程(MDP)における十分最小状態の概念を導入する。
本研究では,高次元複素非線形力学を持つシステムにおいて,最小限の十分状態を推定するSequEntial Knockoffs (SEEK) アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 19.925653053430395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world applications of reinforcement learning, it is often challenging to obtain a state representation that is parsimonious and satisfies the Markov property without prior knowledge. Consequently, it is common practice to construct a state larger than necessary, e.g., by concatenating measurements over contiguous time points. However, needlessly increasing the dimension of the state may slow learning and obfuscate the learned policy. We introduce the notion of a minimal sufficient state in a Markov decision process (MDP) as the subvector of the original state under which the process remains an MDP and shares the same reward function as the original process. We propose a novel SEquEntial Knockoffs (SEEK) algorithm that estimates the minimal sufficient state in a system with high-dimensional complex nonlinear dynamics. In large samples, the proposed method achieves selection consistency. As the method is agnostic to the reinforcement learning algorithm being applied, it benefits downstream tasks such as policy learning. Empirical experiments verify theoretical results and show the proposed approach outperforms several competing methods regarding variable selection accuracy and regret.
- Abstract(参考訳): 実世界の強化学習の応用において、前もって知識のないマルコフ特性を満足する状態表現を得ることは、しばしば困難である。
したがって、連続時間点上での測定を連結することで、必要以上の状態(例えば、等)を構築するのが一般的である。
しかし、必然的に国家の次元を増大させると、学習が遅くなり、学習方針が難解になる可能性がある。
我々は、マルコフ決定過程(MDP)において、その過程がMDPのままであり、元のプロセスと同じ報酬関数を共有する元の状態のサブベクターとして、最小の十分状態の概念を導入する。
本研究では,高次元複素非線形力学を持つシステムにおいて,最小限の十分状態を推定するSequEntial Knockoffs (SEEK) アルゴリズムを提案する。
大規模なサンプルでは,提案手法は選択整合性を実現する。
本手法は強化学習アルゴリズムの適用に非依存であるため,政策学習などの下流課題に有効である。
実験的実験により理論的結果が検証され,提案手法は変数選択精度と後悔に関するいくつかの競合する手法よりも優れていることが示された。
関連論文リスト
- Stochastic Dynamic Power Dispatch with High Generalization and Few-Shot
Adaption via Contextual Meta Graph Reinforcement Learning [7.251065697936476]
高度に一般化された多段階最適ディスパッチポリシのためのコンテキストメタグラフ強化学習(Meta-GRL)を提案する。
異なるディスパッチシナリオのコンテキストを符号化し,下位ポリシー学習者がコンテキスト特定ディスパッチポリシーを学習している間に,ディスパッチタスク識別の方法を学ぶために,上位メタラーナを提案する。
十分なオフライン学習の後、このアプローチはメタラーナーによって生成された仮説の判断をわずかに上乗せするだけで、目に見えない、未定義のシナリオに迅速に適応することができる。
論文 参考訳(メタデータ) (2024-01-19T13:58:46Z) - State Sequences Prediction via Fourier Transform for Representation
Learning [111.82376793413746]
本研究では,表現表現を効率よく学習する新しい方法である,フーリエ変換(SPF)による状態列予測を提案する。
本研究では,状態系列における構造情報の存在を理論的に解析する。
実験により,提案手法はサンプル効率と性能の両面で,最先端のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T14:47:02Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Interpretable Option Discovery using Deep Q-Learning and Variational
Autoencoders [9.432068833600884]
DVQNアルゴリズムは、オプションベースの強化学習における開始条件と終了条件を特定するための有望なアプローチである。
実験により、DVQNアルゴリズムは自動開始と終了で、Rainbowに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-10-03T21:08:39Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。
我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文 参考訳(メタデータ) (2021-06-28T21:29:13Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。