論文の概要: A Boosting Approach to Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2108.09767v1
- Date: Sun, 22 Aug 2021 16:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 01:24:01.213780
- Title: A Boosting Approach to Reinforcement Learning
- Title(参考訳): 強化学習への促進的アプローチ
- Authors: Nataly Brukhim, Elad Hazan, Karan Singh
- Abstract要約: 複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 59.46285581748018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study efficient algorithms for reinforcement learning in Markov decision
processes whose complexity is independent of the number of states. This
formulation succinctly captures large scale problems, but is also known to be
computationally hard in its general form. Previous approaches attempt to
circumvent the computational hardness by assuming structure in either
transition function or the value function, or by relaxing the solution
guarantee to a local optimality condition.
We consider the methodology of boosting, borrowed from supervised learning,
for converting weak learners into an accurate policy. The notion of weak
learning we study is that of sampled-based approximate optimization of linear
functions over policies. Under this assumption of weak learnability, we give an
efficient algorithm that is capable of improving the accuracy of such weak
learning methods, till global optimality is reached. We prove sample complexity
and running time bounds on our method, that are polynomial in the natural
parameters of the problem: approximation guarantee, discount factor,
distribution mismatch and number of actions. In particular, our bound does not
depend on the number of states.
A technical difficulty in applying previous boosting results, is that the
value function over policy space is not convex. We show how to use a non-convex
variant of the Frank-Wolfe method, coupled with recent advances in gradient
boosting that allow incorporating a weak learner with multiplicative
approximation guarantee, to overcome the non-convexity and attain global
convergence.
- Abstract(参考訳): 複雑度が状態数に依存しないマルコフ決定過程における強化学習のための効率的なアルゴリズムについて検討する。
この定式化は、簡潔に大規模な問題を捉えるが、一般の形で計算的に難しいことも知られている。
前回のアプローチでは、遷移関数または値関数の構造を仮定したり、解の保証を局所最適条件に緩和することで計算の難しさを回避しようとする。
我々は,教師付き学習から借用した,弱い学習者を正確な方針に転換するための促進手法を検討する。
私たちが研究する弱い学習の概念は、ポリシー上の線形関数のサンプルベース近似最適化である。
この弱い学習可能性の仮定の下では、大域的最適性に達するまで、このような弱い学習方法の精度を向上させることができる効率的なアルゴリズムを与える。
本手法では, 近似保証, 割引係数, 分布ミスマッチ, アクション数といった, 問題の自然なパラメータの多項式である, サンプルの複雑性と実行時間境界を証明している。
特に、我々の境界は状態の数に依存しない。
以前のブースティング結果を適用する技術的困難は、ポリシー空間上の値関数が凸でないことである。
本稿では,Frank-Wolfe法の非凸変種を用いる方法と,弱学習者を乗算近似保証に組み込むことで,非凸性を克服し,グローバル収束を実現する勾配向上の最近の進歩を紹介する。
関連論文リスト
- Sample-Efficient Agnostic Boosting [19.15484761265653]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、既知のすべてのブースティングアルゴリズムよりも4次的に標本効率が高いという、不可知的なブースティング手法を超越している。
アルゴリズムの重要な特徴は、一様収束引数のブラックボックスアプリケーションで得られるものよりも厳密な一般化誤差を保証しつつ、複数ラウンドのブースティングのサンプルを再利用する能力を活用することである。
論文 参考訳(メタデータ) (2024-10-31T04:50:29Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Stochastic convex optimization for provably efficient apprenticeship
learning [1.0609815608017066]
コスト関数が不明な大規模マルコフ決定プロセス(MDP)について検討する。
擬似学習の課題に対処するために凸最適化ツールを用いており、これは、限られた専門家による実証からポリシーを学習するものである。
論文 参考訳(メタデータ) (2021-12-31T19:47:57Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - Parameter-free Gradient Temporal Difference Learning [3.553493344868414]
強化学習のためのグラデーションに基づく時間差アルゴリズムを開発。
当社のアルゴリズムは線形時間で動作し、GTD2のものを$log$ファクタまで一致させる高確率収束を保証します。
本実験は,本手法が完全に調整されたベースラインに対して高い予測性能を保ちながら,チューニングを一切行わないことを示す。
論文 参考訳(メタデータ) (2021-05-10T06:07:05Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Augmenting GAIL with BC for sample efficient imitation learning [5.199454801210509]
本稿では,行動クローニングとGAILを組み合わせた簡易かつエレガントな手法を提案する。
我々のアルゴリズムは実装が非常に簡単であり、異なるポリシー勾配アルゴリズムと統合する。
本稿では,低次元制御タスク,グリッドワールド,高次元画像ベースタスクにおけるアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2020-01-21T22:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。