論文の概要: Planning and Learning with Adaptive Lookahead
- arxiv url: http://arxiv.org/abs/2201.12403v1
- Date: Fri, 28 Jan 2022 20:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 15:18:54.621859
- Title: Planning and Learning with Adaptive Lookahead
- Title(参考訳): 適応型ルックアヘッドによる計画と学習
- Authors: Aviv Rosenberg and Assaf Hallak and Shie Mannor and Gal Chechik and
Gal Dalal
- Abstract要約: ポリシーイテレーション(PI)アルゴリズムは、欲求の一段階の改善と政策評価を交互に行う。
近年の文献では、複数段階のルックアヘッドポリシーの改善が、イテレーション毎の複雑さの増加を犠牲にして、よりコンバージェンス率の向上につながることが示されている。
本研究では,多段階の地平線を状態と推定値の関数として動的に適応する手法を初めて提案する。
- 参考スコア(独自算出の注目度): 74.39132848733847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The classical Policy Iteration (PI) algorithm alternates between greedy
one-step policy improvement and policy evaluation. Recent literature shows that
multi-step lookahead policy improvement leads to a better convergence rate at
the expense of increased complexity per iteration. However, prior to running
the algorithm, one cannot tell what is the best fixed lookahead horizon.
Moreover, per a given run, using a lookahead of horizon larger than one is
often wasteful. In this work, we propose for the first time to dynamically
adapt the multi-step lookahead horizon as a function of the state and of the
value estimate. We devise two PI variants and analyze the trade-off between
iteration count and computational complexity per iteration. The first variant
takes the desired contraction factor as the objective and minimizes the
per-iteration complexity. The second variant takes as input the computational
complexity per iteration and minimizes the overall contraction factor. We then
devise a corresponding DQN-based algorithm with an adaptive tree search
horizon. We also include a novel enhancement for on-policy learning: per-depth
value function estimator. Lastly, we demonstrate the efficacy of our adaptive
lookahead method in a maze environment and in Atari.
- Abstract(参考訳): 古典的ポリシーイテレーション(PI)アルゴリズムは、強欲な一段階の政策改善と政策評価を交互に行う。
近年の文献では、複数ステップのルックアヘッド政策の改善は、イテレーション毎の複雑さの増加を犠牲にして、収束率の向上につながることが示されている。
しかし、アルゴリズムを実行する前に、何が最良の固定された視線地平線であるかを知ることはできない。
さらに、与えられた走行ごとに、地平線より大きい視線を使うのは、しばしば無駄である。
本研究では,多段階の地平線を状態と推定値の関数として動的に適応する手法として,初めて提案する。
2つのPI変種を考案し、イテレーション数とイテレーション毎の計算複雑性のトレードオフを分析する。
第1の変種は所望の縮小係数を目的とし、文単位の複雑さを最小化する。
第2の変種は1イテレーションあたりの計算複雑性を入力とし、全体の収縮係数を最小化する。
次に、適応木探索地平線を持つ対応するDQNに基づくアルゴリズムを考案する。
また、オンライン学習の新たな拡張として、奥行き値関数推定器(per-deepth value function estimator)も含んでいる。
最後に, 迷路環境およびアタリにおける適応型ルックアヘッド法の有効性を実証した。
関連論文リスト
- Fully Adaptive Regret-Guaranteed Algorithm for Control of Linear Quadratic Systems [0.2455468619225742]
線形二次制御問題に対する最初のアルゴリズムは$mathcalO(sqrtT)$を後悔している。
政策更新数を制御(探索・探索トレードオフを調整する)する最初の完全適応型アルゴリズムを提案する。
我々は、慎重に探索・探索のトレードオフ調整を行うことで、強いシーケンシャルな安定性という広く使われている概念にコミットする必要はないことを示す。
論文 参考訳(メタデータ) (2024-06-11T22:04:59Z) - Towards Efficient and Optimal Covariance-Adaptive Algorithms for Combinatorial Semi-Bandits [12.674929126684528]
我々は、プレイヤーがPアクションの中から d 個の基本アイテムを含む集合のパワーセットから選択する半帯域の問題に対処する。
提案手法は半帯域フィードバックを効果的に活用し,帯域フィードバックアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2024-02-23T08:07:54Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Alternating Mahalanobis Distance Minimization for Stable and Accurate CP
Decomposition [4.847980206213335]
本稿では, テンソルの特異値とベクトルを導出するための新しい定式化を導入する。
このアルゴリズムのサブスウィープは、既知のランクの正確なCPDに対して超線形収束率を達成することができることを示す。
すると、アルゴリズムは各因子に対するマハラノビス距離を最適化するものであり、基底距離は他の因子に依存していると見なす。
論文 参考訳(メタデータ) (2022-04-14T19:56:36Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Improved Regret Bound and Experience Replay in Regularized Policy
Iteration [22.621710838468097]
無限ホライゾンマルコフ決定過程(mdps)における学習アルゴリズムを関数近似を用いて検討する。
まず、ほぼ同一の仮定の下で、Politexアルゴリズムの後悔解析を$O(T3/4)$から$O(sqrtT)$にシャープできることを示す。
その結果、計算効率の良いアルゴリズムに対して、最初の高い確率の$o(sqrtt)$ regretバウンドが得られる。
論文 参考訳(メタデータ) (2021-02-25T00:55:07Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - A Two-Timescale Framework for Bilevel Optimization: Complexity Analysis
and Application to Actor-Critic [142.1492359556374]
双レベル最適化は、2レベル構造を示す問題のクラスである。
このような二段階問題に対処するための2段階近似(TTSA)アルゴリズムを提案する。
本稿では,TTSAフレームワークの特殊な事例として,2段階の自然なアクター・クリティカルポリシー最適化アルゴリズムが有用であることを示す。
論文 参考訳(メタデータ) (2020-07-10T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。