論文の概要: Adaptive Smoothing Path Integral Control
- arxiv url: http://arxiv.org/abs/2005.06364v1
- Date: Wed, 13 May 2020 15:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 13:43:05.270906
- Title: Adaptive Smoothing Path Integral Control
- Title(参考訳): 適応平滑化経路積分制御
- Authors: Dominik Thalmeier, Hilbert J. Kappen, Simone Totaro, Vicen\c{c}
G\'omez
- Abstract要約: 政策最適化の収束を高速化するために,コスト関数に inf-con を適用したモデルフリーアルゴリズムを提案する。
PICE法と直接コスト最適化法に比較して, 解析的, 実証的に, 中間段階の平滑化が最適であることを示す。
- 参考スコア(独自算出の注目度): 2.4087148947930634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Path Integral control problems a representation of an optimally controlled
dynamical system can be formally computed and serve as a guidepost to learn a
parametrized policy. The Path Integral Cross-Entropy (PICE) method tries to
exploit this, but is hampered by poor sample efficiency. We propose a
model-free algorithm called ASPIC (Adaptive Smoothing of Path Integral Control)
that applies an inf-convolution to the cost function to speedup convergence of
policy optimization. We identify PICE as the infinite smoothing limit of such
technique and show that the sample efficiency problems that PICE suffers
disappear for finite levels of smoothing. For zero smoothing this method
becomes a greedy optimization of the cost, which is the standard approach in
current reinforcement learning. We show analytically and empirically that
intermediate levels of smoothing are optimal, which renders the new method
superior to both PICE and direct cost-optimization.
- Abstract(参考訳): 経路積分制御問題では、最適制御力学系の表現を形式的に計算し、パラメータ化されたポリシーを学ぶためのガイドポストとして機能する。
Path Integral Cross-Entropy (PICE)法は、これを活用しようとするが、サンプル効率の低下によって妨げられる。
本稿では、コスト関数にインフ畳み込みを適用し、ポリシー最適化の収束を高速化するASPIC(Adaptive Smoothing of Path Integral Control)と呼ばれるモデルフリーアルゴリズムを提案する。
我々はPICEをそのような手法の無限な平滑化限界とみなし、PICEが抱えるサンプル効率の問題が有限レベルの平滑化のために消えることを示す。
ゼロ平滑化の場合、この手法は現在の強化学習における標準的なアプローチであるコストのグリージーな最適化となる。
PICE法と直接コスト最適化法に比較して, 解析的, 実証的に, 中間段階の平滑化が最適であることを示す。
関連論文リスト
- A Simulation-Free Deep Learning Approach to Stochastic Optimal Control [12.699529713351287]
最適制御(SOC)における一般問題の解法のためのシミュレーションフリーアルゴリズムを提案する。
既存の手法とは異なり、我々の手法は随伴問題の解を必要としない。
論文 参考訳(メタデータ) (2024-10-07T16:16:53Z) - Adaptive Variance Reduction for Stochastic Optimization under Weaker Assumptions [26.543628010637036]
非函数に対して$mathcalO(log T)$の最適収束率を達成する新しい適応還元法を導入する。
また、提案手法を拡張して、合成最適化のために$mathcalO(log T)$と同じ最適率を得る。
論文 参考訳(メタデータ) (2024-06-04T04:39:51Z) - Faster Stochastic Variance Reduction Methods for Compositional MiniMax
Optimization [50.10952609321302]
合成ミニマックス最適化は、さまざまな機械学習領域において重要な課題である。
構成最小最適化の現在の方法は、最適以下の複雑さや、大きなバッチサイズに大きく依存することによって悩まされている。
本稿では,Nested STOchastic Recursive Momentum (NSTORM)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T14:57:21Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - AdaGDA: Faster Adaptive Gradient Descent Ascent Methods for Minimax
Optimization [104.96004056928474]
本稿では,非コンケーブ最小値問題に対する高速適応勾配降下法を提案する。
我々は,本手法が,ミニバッチサイズが$O(kappa2.5epsilon-3)$のより低いサンプル複雑性に達することを示す。
論文 参考訳(メタデータ) (2021-06-30T14:47:09Z) - Adaptive Importance Sampling for Finite-Sum Optimization and Sampling
with Decreasing Step-Sizes [4.355567556995855]
ステップサイズを小さくした有限サム最適化とサンプリングのための適応的重要度サンプリングのための簡易かつ効率的なアルゴリズムであるavareを提案する。
標準的な技術的条件下では、$mathcalO(T2/3)$と$mathcalO(T5/6)$の動的後悔をそれぞれ、$mathcalO(T5/6)$のステップサイズで実行するときに達成している。
論文 参考訳(メタデータ) (2021-03-23T00:28:15Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - The Strength of Nesterov's Extrapolation in the Individual Convergence
of Nonsmooth Optimization [0.0]
ネステロフの外挿は、非滑らかな問題に対して勾配降下法の個人収束を最適にする強さを持つことを証明している。
提案手法は,設定の非滑らかな損失を伴って正規化学習タスクを解くためのアルゴリズムの拡張である。
本手法は,大規模な1-正規化ヒンジロス学習問題の解法として有効である。
論文 参考訳(メタデータ) (2020-06-08T03:35:41Z) - A Kernel Mean Embedding Approach to Reducing Conservativeness in
Stochastic Programming and Control [13.739881592455044]
カーネルの平均埋め込み法をサンプルベース最適化と制御に適用する。
このような制約除去の効果は、最適性を改善し、保守性を低下させる。
論文 参考訳(メタデータ) (2020-01-28T15:11:50Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。