論文の概要: Tempo Adaption in Non-stationary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.14989v1
- Date: Tue, 26 Sep 2023 15:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 13:12:14.159152
- Title: Tempo Adaption in Non-stationary Reinforcement Learning
- Title(参考訳): 非定常強化学習におけるテンポ適応
- Authors: Hyunin Lee, Yuhao Ding, Jongmin Lee, Ming Jin, Javad Lavaei, Somayeh
Sojoudi
- Abstract要約: 非定常強化学習(RL)におけるエージェントと環境間の「時間同期問題」に取り組む。
既存の作業では、$k$でエージェントが行をロールアウトし、$k+1$に遷移する前にポリシーをトレーニングする。
最適な$mathfrakt_k=mathfrakt_k=mathfrak+Deltamathfrakt$.proactively Synchronizing TempoProST frameworkを提案する。
- 参考スコア(独自算出の注目度): 29.606022769509682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We first raise and tackle ``time synchronization'' issue between the agent
and the environment in non-stationary reinforcement learning (RL), a crucial
factor hindering its real-world applications. In reality, environmental changes
occur over wall-clock time ($\mathfrak{t}$) rather than episode progress ($k$),
where wall-clock time signifies the actual elapsed time within the fixed
duration $\mathfrak{t} \in [0, T]$. In existing works, at episode $k$, the
agent rollouts a trajectory and trains a policy before transitioning to episode
$k+1$. In the context of the time-desynchronized environment, however, the
agent at time $\mathfrak{t}_k$ allocates $\Delta \mathfrak{t}$ for trajectory
generation and training, subsequently moves to the next episode at
$\mathfrak{t}_{k+1}=\mathfrak{t}_{k}+\Delta \mathfrak{t}$. Despite a fixed
total episode ($K$), the agent accumulates different trajectories influenced by
the choice of \textit{interaction times}
($\mathfrak{t}_1,\mathfrak{t}_2,...,\mathfrak{t}_K$), significantly impacting
the sub-optimality gap of policy. We propose a Proactively Synchronizing Tempo
(ProST) framework that computes optimal $\{
\mathfrak{t}_1,\mathfrak{t}_2,...,\mathfrak{t}_K \} (= \{ \mathfrak{t}
\}_{1:K})$. Our main contribution is that we show optimal $\{ \mathfrak{t}
\}_{1:K}$ trades-off between the policy training time (agent tempo) and how
fast the environment changes (environment tempo). Theoretically, this work
establishes an optimal $\{ \mathfrak{t} \}_{1:K}$ as a function of the degree
of the environment's non-stationarity while also achieving a sublinear dynamic
regret. Our experimental evaluation on various high dimensional non-stationary
environments shows that the ProST framework achieves a higher online return at
optimal $\{ \mathfrak{t} \}_{1:K}$ than the existing methods.
- Abstract(参考訳): まず、実世界の応用を妨げる重要な要因である非定常強化学習(RL)において、エージェントと環境との間の「時間同期」の問題に取り組み、対処する。
実際には、時間変化はエピソード進行(k$)ではなく、時間変化(\mathfrak{t}$)によって起こる。
既存の作品では、エピソード$k$で、エージェントは軌道をロールアウトし、エピソード$k+1$に移行する前にポリシーを訓練する。
しかし、時間依存環境の文脈では、時のエージェント $\mathfrak{t}_k$ は軌道生成とトレーニングのために $\Delta \mathfrak{t}$ を割り当て、次に次のエピソードに $\mathfrak{t}_{k+1}=\mathfrak{t}_{k}+\Delta \mathfrak{t}$ を移動させる。
固定されたトータルエピソード(K$)にもかかわらず、エージェントは \textit{interaction times} ($\mathfrak{t}_1,\mathfrak{t}_2,...,\mathfrak{t}_K$)の選択によって影響された異なる軌道を蓄積し、政策の準最適ギャップに大きな影響を及ぼす。
我々は、最適な$\{ \mathfrak{t}_1,\mathfrak{t}_2,...,\mathfrak{t}_k \} (= \{ \mathfrak{t} \}_{1:k})$を計算する、積極的な同期のテンポ(プロスト)フレームワークを提案する。
私たちの主な貢献は、ポリシートレーニング時間(エージェントテンポ)と環境変化の速さ(環境テンポ)の間の最適な$\{ \mathfrak{t} \}_{1:k}$のトレードオフを示すことです。
理論的には、この研究は環境の非定常性の度合いの関数として最適な$\{ \mathfrak{t} \}_{1:k}$ を確立し、同時に亜線形動的後悔を達成する。
各種高次元非定常環境に関する実験的評価により, ProST フレームワークは既存の手法よりも最適な $\{ \mathfrak{t} \}_{1:K}$ で高いオンラインリターンを達成することが示された。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Non-stationary Online Convex Optimization with Arbitrary Delays [50.46856739179311]
本稿では,非定常環境における遅延オンライン凸最適化(OCO)について検討する。
まず, 遅延勾配の勾配降下ステップを, 到着順に応じて行う単純なアルゴリズム, DOGDを提案する。
DOGDが達成した動的後悔境界を$O(sqrtbardT(P_T+1))$に削減する改良アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-20T07:54:07Z) - Tractable Optimality in Episodic Latent MABs [75.17357040707347]
我々は、エージェントが時間ステップ$H$のエピソードのために環境と対話する、M$遅延コンテキストを持つマルチアームバンディット問題を考える。
エピソードの長さによっては、学習者は遅れた文脈を正確に見積もることができないかもしれない。
我々は、$O(textttpoly(A) + textttpoly(M,H)min(M,H))$インタラクションを用いて、ほぼ最適なポリシーを確実に学習する手順を設計する。
論文 参考訳(メタデータ) (2022-10-05T22:53:46Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Near-Optimal Goal-Oriented Reinforcement Learning in Non-Stationary
Environments [40.027926921772355]
目標指向強化学習における動的後悔の研究を行う。
この下位境界における$Delta_c$と$Delta_P$の異なる役割は、コストと遷移を別々に見積もるアルゴリズムを設計するきっかけとなった。
論文 参考訳(メタデータ) (2022-05-25T20:29:01Z) - Time Discretization-Invariant Safe Action Repetition for Policy Gradient
Methods [43.49494338665518]
政策勾配(PG)法に対する$delta$-invariantアルゴリズムを提案する。
我々の手法は$delta$-invariant だけでなく、強靭性も示しており、以前の$delta$-invariant アプローチよりも優れている。
論文 参考訳(メタデータ) (2021-11-06T19:17:24Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - Asynchronous Stochastic Optimization Robust to Arbitrary Delays [54.61797739710608]
遅延勾配の最適化を考えると、ステップt$毎に、アルゴリズムは古い計算を使って更新する - d_t$ for arbitrary delay $d_t gradient。
本実験は,遅延分布が歪んだり重くなったりした場合のアルゴリズムの有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2021-06-22T15:50:45Z) - Gradient Descent-Ascent Provably Converges to Strict Local Minmax
Equilibria with a Finite Timescale Separation [11.091975655053547]
有限時間スケールの分離パラメータ $tau$ は、非プレイヤ、非コンケーブゼロサムゲームにおいて勾配降下度に比例することを示す。
タイムスケールコンピューティングがパフォーマンスに与える影響を実証的に示す。
論文 参考訳(メタデータ) (2020-09-30T17:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。