論文の概要: Efficient RL with Impaired Observability: Learning to Act with Delayed
and Missing State Observations
- arxiv url: http://arxiv.org/abs/2306.01243v1
- Date: Fri, 2 Jun 2023 02:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 17:05:26.817294
- Title: Efficient RL with Impaired Observability: Learning to Act with Delayed
and Missing State Observations
- Title(参考訳): 可観測性を損なう効率的なrl:遅延状態および欠如状態観察で行動する学習
- Authors: Minshuo Chen, Yu Bai, H. Vincent Poor, Mengdi Wang
- Abstract要約: 実世界の強化学習システムでは、様々な障害のある可観測性は問題を複雑にすることができる。
本稿では,エージェントが遅延状態の観察を行なわなければならない制御系における効率的なRLに関する理論的研究を紹介する。
我々は、遅延および欠落した観測条件の両方において、RLに対して$tildemathcalO(sqrtrm poly(H) SAK)$という形で、ほぼ最適の後悔境界を確立する。
- 参考スコア(独自算出の注目度): 118.34086372996212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real-world reinforcement learning (RL) systems, various forms of impaired
observability can complicate matters. These situations arise when an agent is
unable to observe the most recent state of the system due to latency or lossy
channels, yet the agent must still make real-time decisions. This paper
introduces a theoretical investigation into efficient RL in control systems
where agents must act with delayed and missing state observations. We establish
near-optimal regret bounds, of the form $\tilde{\mathcal{O}}(\sqrt{{\rm
poly}(H) SAK})$, for RL in both the delayed and missing observation settings.
Despite impaired observability posing significant challenges to the policy
class and planning, our results demonstrate that learning remains efficient,
with the regret bound optimally depending on the state-action size of the
original system. Additionally, we provide a characterization of the performance
of the optimal policy under impaired observability, comparing it to the optimal
value obtained with full observability.
- Abstract(参考訳): 実世界の強化学習(RL)システムでは、様々な障害のある可観測性は問題を複雑にすることができる。
これらの状況は、エージェントが待ち時間やチャネルの損失のためにシステムの最新の状態を監視できない場合に発生するが、エージェントはリアルタイムな判断をしなければならない。
本稿では,エージェントが遅延状態の観察を行なわなければならない制御系における効率的なRLに関する理論的研究を紹介する。
遅延および欠落した観測条件の両方において、RL に対して $\tilde{\mathcal{O}}(\sqrt{{\rm poly}(H) SAK})$ という形のほぼ最適後悔境界を確立する。
方針クラスや計画に重大な課題をもたらす可観測性を損なうにもかかわらず、本研究は学習が効率的であり、後悔は元のシステムの状態行動サイズに応じて最適に束縛されていることを実証する。
さらに, 可観測性に障害のある最適政策の性能を, 完全な可観測性を持つ最適値と比較して評価する。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Offline RL with Observation Histories: Analyzing and Improving Sample
Complexity [70.7884839812069]
オフライン強化学習は、最適な実験のみからなるデータセットから、より最適な振る舞いを合成することができる。
観測履歴を基準とした標準オフラインRLアルゴリズムは,サンプルの複雑さに悩まされていることを示す。
オフラインのRLは、この損失を明示的に最適化し、最悪のサンプルの複雑さを軽減できると提案する。
論文 参考訳(メタデータ) (2023-10-31T17:29:46Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Exploring the Training Robustness of Distributional Reinforcement
Learning against Noisy State Observations [7.776010676090131]
エージェントが観察する状態の観察は、測定誤差や敵のノイズを含んでおり、エージェントが最適な行動を取るように誤解したり、訓練中に崩壊することもある。
本稿では,本研究の成果である分散強化学習(RL)のトレーニングロバスト性について検討する。
論文 参考訳(メタデータ) (2021-09-17T22:37:39Z) - State Action Separable Reinforcement Learning [11.04892417160547]
我々は,新たな学習パラダイムである状態行動分離型強化学習(sasRL)を提案する。
sasRLでは、アクション空間が値関数学習プロセスから切り離され、効率が向上する。
いくつかのゲームシナリオの実験では、sasRLは最先端のMDPベースのRLアルゴリズムより75%高い性能を示している。
論文 参考訳(メタデータ) (2020-06-05T22:02:57Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。