論文の概要: Gradient Flows for Regularized Stochastic Control Problems
- arxiv url: http://arxiv.org/abs/2006.05956v4
- Date: Tue, 1 Nov 2022 09:50:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 06:44:14.232873
- Title: Gradient Flows for Regularized Stochastic Control Problems
- Title(参考訳): 正規化確率制御問題に対する勾配流
- Authors: David \v{S}i\v{s}ka and {\L}ukasz Szpruch
- Abstract要約: 本稿では,相対エントロピーによって正規化される測度空間である作用空間の制御問題について検討する。
この勾配流の不変測度がポントリャーギン最適性原理を満たすことが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies stochastic control problems with the action space taken to
be the space of measures, regularized by the relative entropy. We identify
suitable metric space on which we construct a gradient flow for the
measure-valued control process along which the cost functional is guaranteed to
decrease. It is shown that any invariant measure of this gradient flow
satisfies the Pontryagin optimality principle. If the problem we work with is
sufficiently convex, the gradient flow converges exponentially fast.
Furthermore, the optimal measure-valued control admits Bayesian interpretation
which means that one can incorporate prior knowledge when solving stochastic
control problem. This work is motivated by a desire to extend the theoretical
underpinning for the convergence of stochastic gradient type algorithms widely
used in the reinforcement learning community to solve control problems.
- Abstract(参考訳): 本稿では,相対エントロピーによって正規化される測度空間である作用空間の確率的制御問題について検討する。
我々は,コスト汎関数が減少することが保証される測度値制御プロセスの勾配フローを構成する適切な距離空間を同定する。
この勾配流れの任意の不変測度はポントリャーギン最適性原理を満たすことが示されている。
私たちが取り組んだ問題が十分に凸であれば、勾配流は指数関数的に速く収束する。
さらに、最適測度値制御は、確率的制御問題を解く際に事前の知識を取り入れることができるベイズ解釈を許容する。
この研究は、強化学習コミュニティで広く使われている確率勾配型アルゴリズムの収束に対する理論的基盤を拡大し、制御問題を解決することを目的としている。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - FlowPG: Action-constrained Policy Gradient with Normalizing Flows [14.98383953401637]
ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。
ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
論文 参考訳(メタデータ) (2024-02-07T11:11:46Z) - A Policy Gradient Framework for Stochastic Optimal Control Problems with
Global Convergence Guarantee [12.884132885360907]
最適制御問題に対するポリシー勾配法を連続的に検討する。
勾配流のグローバル収束を証明し、一定の正則性仮定の下で収束率を確立する。
論文 参考訳(メタデータ) (2023-02-11T23:30:50Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Linear convergence of a policy gradient method for finite horizon
continuous time stochastic control problems [3.7971225066055765]
本稿では,一般連続時空制御問題に対する確率収束勾配法を提案する。
アルゴリズムは制御点に線形に収束し、ステップごとのポリシーに対して安定であることを示す。
論文 参考訳(メタデータ) (2022-03-22T14:17:53Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Stochastic Control through Approximate Bayesian Input Inference [23.65155934960922]
不確実性下での最適制御は、最適化問題のためのトラクタブルソリューションの作成が困難であるため、制御の一般的な課題です。
制御問題を入力推定の1つとすることで、高度な近似推論技術を用いて統計近似を原理的かつ実用的な方法で処理することができる。
論文 参考訳(メタデータ) (2021-05-17T09:27:12Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。