論文の概要: Tempo Adaptation in Non-stationary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.14989v2
- Date: Fri, 27 Oct 2023 20:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:00:38.856404
- Title: Tempo Adaptation in Non-stationary Reinforcement Learning
- Title(参考訳): 非定常強化学習におけるテンポ適応
- Authors: Hyunin Lee, Yuhao Ding, Jongmin Lee, Ming Jin, Javad Lavaei, Somayeh
Sojoudi
- Abstract要約: 非定常強化学習(RL)におけるエージェントと環境間の時間同期問題に最初に取り組む。
本稿では,サブ最適シーケンスを演算するTempo(textttProST$)フレームワークを提案する。
私たちの主な貢献は、政策トレーニング時間(エージェントテンポ)と環境変化の速さ(環境テンポ)のトレードオフとして、最適以下の$t_1:K$を示すことです。
- 参考スコア(独自算出の注目度): 29.606022769509682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We first raise and tackle a ``time synchronization'' issue between the agent
and the environment in non-stationary reinforcement learning (RL), a crucial
factor hindering its real-world applications. In reality, environmental changes
occur over wall-clock time ($t$) rather than episode progress ($k$), where
wall-clock time signifies the actual elapsed time within the fixed duration $t
\in [0, T]$. In existing works, at episode $k$, the agent rolls a trajectory
and trains a policy before transitioning to episode $k+1$. In the context of
the time-desynchronized environment, however, the agent at time $t_{k}$
allocates $\Delta t$ for trajectory generation and training, subsequently moves
to the next episode at $t_{k+1}=t_{k}+\Delta t$. Despite a fixed total number
of episodes ($K$), the agent accumulates different trajectories influenced by
the choice of interaction times ($t_1,t_2,...,t_K$), significantly impacting
the suboptimality gap of the policy. We propose a Proactively Synchronizing
Tempo ($\texttt{ProST}$) framework that computes a suboptimal sequence
{$t_1,t_2,...,t_K$} (= { $t_{1:K}$}) by minimizing an upper bound on its
performance measure, i.e., the dynamic regret. Our main contribution is that we
show that a suboptimal {$t_{1:K}$} trades-off between the policy training time
(agent tempo) and how fast the environment changes (environment tempo).
Theoretically, this work develops a suboptimal {$t_{1:K}$} as a function of the
degree of the environment's non-stationarity while also achieving a sublinear
dynamic regret. Our experimental evaluation on various high-dimensional
non-stationary environments shows that the $\texttt{ProST}$ framework achieves
a higher online return at suboptimal {$t_{1:K}$} than the existing methods.
- Abstract(参考訳): まず,実世界の応用を妨げる重要な要因である非定常強化学習(RL)において,エージェントと環境との間の「時間同期」問題に対処する。
実際、環境変化はエピソード進行ではなくウォールタイム時間(t$)で発生し、ウォールタイム時間は固定期間$t \in [0, T]$内の実際の経過時間を表す。
既存の作品では、エピソード$k$で、エージェントは軌道を転がし、エピソード$k+1$に移行する前にポリシーを訓練する。
しかし、時間同期環境の文脈では、時刻のエージェント$t_{k}$が軌道生成と訓練に$\delta t$を割り当て、次のエピソードに$t_{k+1}=t_{k}+\delta t$で移動する。
一定回数のエピソード(K$)にもかかわらず、エージェントは相互作用時間(t_1,t_2,...,t_K$)の選択の影響で異なる軌道を蓄積し、ポリシーの最適以下のギャップに大きな影響を及ぼす。
本稿では,その性能指標,すなわち動的後悔の上限を最小化することにより,最適部分列 {$t_1,t_2,...,t_K$} (= { $t_{1:K}$}) を演算する,Proactively Synchronizing Tempo ($\texttt{ProST}$) フレームワークを提案する。
我々の主な貢献は、政策トレーニング時間(エージェントテンポ)と環境変化の速さ(環境テンポ)の間の亜最適 {$t_{1:K}$} トレードオフを示すことである。
理論的には、この研究は環境の非定常性の度合いの関数として、サブ最適 {$t_{1:K}$} を開発しながら、サブ線形の動的後悔も達成する。
各種高次元非定常環境における実験により, $\texttt{ProST}$ framework は, 既存の手法に比べて, より高いオンラインリターンを達成することが示された。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Non-stationary Online Convex Optimization with Arbitrary Delays [50.46856739179311]
本稿では,非定常環境における遅延オンライン凸最適化(OCO)について検討する。
まず, 遅延勾配の勾配降下ステップを, 到着順に応じて行う単純なアルゴリズム, DOGDを提案する。
DOGDが達成した動的後悔境界を$O(sqrtbardT(P_T+1))$に削減する改良アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-20T07:54:07Z) - Tractable Optimality in Episodic Latent MABs [75.17357040707347]
我々は、エージェントが時間ステップ$H$のエピソードのために環境と対話する、M$遅延コンテキストを持つマルチアームバンディット問題を考える。
エピソードの長さによっては、学習者は遅れた文脈を正確に見積もることができないかもしれない。
我々は、$O(textttpoly(A) + textttpoly(M,H)min(M,H))$インタラクションを用いて、ほぼ最適なポリシーを確実に学習する手順を設計する。
論文 参考訳(メタデータ) (2022-10-05T22:53:46Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Near-Optimal Goal-Oriented Reinforcement Learning in Non-Stationary
Environments [40.027926921772355]
目標指向強化学習における動的後悔の研究を行う。
この下位境界における$Delta_c$と$Delta_P$の異なる役割は、コストと遷移を別々に見積もるアルゴリズムを設計するきっかけとなった。
論文 参考訳(メタデータ) (2022-05-25T20:29:01Z) - Time Discretization-Invariant Safe Action Repetition for Policy Gradient
Methods [43.49494338665518]
政策勾配(PG)法に対する$delta$-invariantアルゴリズムを提案する。
我々の手法は$delta$-invariant だけでなく、強靭性も示しており、以前の$delta$-invariant アプローチよりも優れている。
論文 参考訳(メタデータ) (2021-11-06T19:17:24Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - Asynchronous Stochastic Optimization Robust to Arbitrary Delays [54.61797739710608]
遅延勾配の最適化を考えると、ステップt$毎に、アルゴリズムは古い計算を使って更新する - d_t$ for arbitrary delay $d_t gradient。
本実験は,遅延分布が歪んだり重くなったりした場合のアルゴリズムの有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2021-06-22T15:50:45Z) - Gradient Descent-Ascent Provably Converges to Strict Local Minmax
Equilibria with a Finite Timescale Separation [11.091975655053547]
有限時間スケールの分離パラメータ $tau$ は、非プレイヤ、非コンケーブゼロサムゲームにおいて勾配降下度に比例することを示す。
タイムスケールコンピューティングがパフォーマンスに与える影響を実証的に示す。
論文 参考訳(メタデータ) (2020-09-30T17:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。