論文の概要: An Analysis of Frame-skipping in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.03718v1
- Date: Sun, 7 Feb 2021 04:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 17:46:23.740998
- Title: An Analysis of Frame-skipping in Reinforcement Learning
- Title(参考訳): 強化学習におけるフレームスキップの解析
- Authors: Shivaram Kalyanakrishnan, Siddharth Aravindan, Vishwajeet Bagdawat,
Varun Bhatt, Harshith Goka, Archit Gupta, Kalpesh Krishna, Vihari Piratla
- Abstract要約: 多くのAtariコンソールゲームでは、強化学習アルゴリズムが$d > 1$で実行する場合、かなり優れたポリシーを提供する。
我々は、同じアクションの$d$長のシーケンスに対するこの選択の一般的な制限である「アクション-繰り返し」に焦点を当てる。
この損失は、より小さなタスクの地平線によって学習がもたらされた利益によって相殺される可能性がある。
- 参考スコア(独自算出の注目度): 13.680685626360903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the practice of sequential decision making, agents are often designed to
sense state at regular intervals of $d$ time steps, $d > 1$, ignoring state
information in between sensing steps. While it is clear that this practice can
reduce sensing and compute costs, recent results indicate a further benefit. On
many Atari console games, reinforcement learning (RL) algorithms deliver
substantially better policies when run with $d > 1$ -- in fact with $d$ even as
high as $180$. In this paper, we investigate the role of the parameter $d$ in
RL; $d$ is called the "frame-skip" parameter, since states in the Atari domain
are images. For evaluating a fixed policy, we observe that under standard
conditions, frame-skipping does not affect asymptotic consistency. Depending on
other parameters, it can possibly even benefit learning. To use $d > 1$ in the
control setting, one must first specify which $d$-step open-loop action
sequences can be executed in between sensing steps. We focus on
"action-repetition", the common restriction of this choice to $d$-length
sequences of the same action. We define a task-dependent quantity called the
"price of inertia", in terms of which we upper-bound the loss incurred by
action-repetition. We show that this loss may be offset by the gain brought to
learning by a smaller task horizon. Our analysis is supported by experiments on
different tasks and learning algorithms.
- Abstract(参考訳): 連続的な意思決定の実践では、エージェントはしばしば$d$時間ステップ、$d > 1$の定期的な間隔で状態を感知するように設計され、感知ステップの間の状態情報を無視します。
このプラクティスがセンシングと計算コストを削減できることは明らかですが、最近の結果はさらなるメリットを示しています。
多くのatariコンソールゲームでは、強化学習(rl)アルゴリズムは、$d > 1$で実行した場合、大幅に優れたポリシーを提供する。
本稿では,rlにおけるパラメータ $d$ の役割について検討する。$d$ は atari ドメインの状態がイメージであるため,"frame-skip" パラメータと呼ばれる。
固定ポリシーの評価には,標準条件下ではフレームスキッピングは漸近的一貫性に影響を与えない。
他のパラメータによっては、学習の恩恵を受けることさえできます。
制御設定で$d > 1$を使用するには、最初に、どの$d$-step open-loopアクションシーケンスをセンシングステップ間で実行できるかを指定する必要がある。
我々は、この選択を同じアクションの$d$-lengthシーケンスに共通の制限である"action-repetition"に焦点を当てている。
我々は「慣性値」と呼ばれるタスク依存量を定義し、行動反復によって生じる損失を上向きに定義する。
この損失は、より小さなタスクの地平線によって学習にもたらされる利得によって相殺される可能性がある。
我々の分析は、様々なタスクや学習アルゴリズムの実験によって支えられている。
関連論文リスト
- Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs [72.40181882916089]
我々のアルゴリズムが $tildeObig((d+log (|mathcalS|2 |mathcalA|))sqrtKbig)$ regret with full-information feedback, where $d$ is the dimension of a known feature mapping is linearly parametrizing the unknown transition kernel of the MDP, $K$ is the number of episodes, $|mathcalS|$ and $|mathcalA|$ is the standardities of the state and action space。
論文 参考訳(メタデータ) (2023-05-15T05:37:32Z) - Reinforcement Learning in a Birth and Death Process: Breaking the
Dependence on the State Space [0.0]
我々は、出生・死亡構造を有するMDPにおける未報告の強化学習の後悔を再考する。
本研究の結果から,従来の学習アルゴリズム sc Ucrl2 のやや遅れたバージョンに対する後悔は,実際には $tildemathcalO(sqrtEAT)$ で表される。
論文 参考訳(メタデータ) (2023-02-21T13:28:37Z) - Near-Optimal Adversarial Reinforcement Learning with Switching Costs [43.895798638743784]
本稿では, スイッチングコストを伴い, 効率の良いRLアルゴリズムの開発方法について述べる。
我々の下限は、敵RLのコストを切り替えるという根本的な課題のため、最も達成された後悔はもはや達成不可能であることを示している。
本稿では,遷移関数が知られているときの下位境界に一致することを後悔する2つの新しいスイッチング・リデュースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T23:41:29Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Sample-Efficient Reinforcement Learning with loglog(T) Switching Cost [31.04961854943877]
我々は,$widetildeO(sqrtH4S2AT)$を,切り替えコストが$O(HSA loglog T)$を要求されたことを後悔する新しいアルゴリズムを提案する。
副産物として、我々の新しいアルゴリズムは、最適な切替コストが$O(HSA)$のエンフレワードフリー探索アルゴリズムを導出することができる。
論文 参考訳(メタデータ) (2022-02-13T19:01:06Z) - Minimal Expected Regret in Linear Quadratic Control [79.81807680370677]
オンライン学習アルゴリズムを考案し、その期待された後悔を保証します。
当時のこの後悔は、$A$と$B$が未知の場合、$widetildeO((d_u+d_x)sqrtd_xT)$によって上界(i)となる。
論文 参考訳(メタデータ) (2021-09-29T14:07:21Z) - Gap-Dependent Unsupervised Exploration for Reinforcement Learning [40.990467706237396]
タスクに依存しない強化学習のための効率的なアルゴリズムを提案する。
このアルゴリズムは1/epsilon cdot (H3SA / rho + H4 S2 A) の$widetildemathcalOのみを探索する。
情報理論上、この境界は$rho Theta (1/(HS))$と$H>1$に対してほぼ厳密であることを示す。
論文 参考訳(メタデータ) (2021-08-11T20:42:46Z) - Minimax Regret for Stochastic Shortest Path [63.45407095296692]
我々は、エージェントが最小の総予想コストで目標状態に達する必要がある最短パス(SSP)問題を研究します。
この設定に対するminimaxの後悔は、$widetilde O(B_star sqrt|S| |A|K)$であり、$B_star$は任意の状態から最適なポリシーの予想コストに拘束されることを示しています。
本アルゴリズムは, 有限水平MDPにおける強化学習の新たな削減を基礎として, エピソードごとのインタイム動作を行う。
論文 参考訳(メタデータ) (2021-03-24T10:11:49Z) - Revisiting Smoothed Online Learning [70.09792747315323]
オンライン学習者がヒットコストとスイッチングコストの両方に苦しむスムーズなオンライン学習の問題を調査します。
競争比を縛るために、各ラウンドで打つコストが学習者に知られていると仮定し、打つコストと切り換えコストの重み付け合計を単純に最小化する勾配アルゴリズムを調査します。
論文 参考訳(メタデータ) (2021-02-13T14:15:55Z) - Learning Near Optimal Policies with Low Inherent Bellman Error [115.16037976819331]
エピソード強化学習における近似線形作用値関数を用いた探索問題について検討する。
我々は,検討した設定に対して最適な統計率を達成するアルゴリズムを用いて,Emphbatch仮定のみを用いて探索を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-02-29T02:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。