論文の概要: Thompson Sampling Efficiently Learns to Control Diffusion Processes
- arxiv url: http://arxiv.org/abs/2206.09977v1
- Date: Mon, 20 Jun 2022 19:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 08:54:07.009427
- Title: Thompson Sampling Efficiently Learns to Control Diffusion Processes
- Title(参考訳): トンプソンサンプリングは拡散過程を効率的に制御する
- Authors: Mohamad Kazem Shirani Faradonbeh, Mohamad Sadegh Shirani Faradonbeh,
Mohsen Bayati
- Abstract要約: 我々は、トンプソンサンプリングアルゴリズムが最適動作を高速に学習し、時間の平方根しか残さず、短時間でシステムを安定化することを示した。
我々の知る限り、これは拡散過程制御問題におけるトンプソンサンプリングの最初の結果である。
我々の理論解析は、ドリフトパラメータの局所幾何学と拡散過程の最適制御を結びつける、ある最適性多様体の特徴づけを含む。
- 参考スコア(独自算出の注目度): 4.254099382808599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion processes that evolve according to linear stochastic differential
equations are an important family of continuous-time dynamic decision-making
models. Optimal policies are well-studied for them, under full certainty about
the drift matrices. However, little is known about data-driven control of
diffusion processes with uncertain drift matrices as conventional discrete-time
analysis techniques are not applicable. In addition, while the task can be
viewed as a reinforcement learning problem involving exploration and
exploitation trade-off, ensuring system stability is a fundamental component of
designing optimal policies. We establish that the popular Thompson sampling
algorithm learns optimal actions fast, incurring only a square-root of time
regret, and also stabilizes the system in a short time period. To the best of
our knowledge, this is the first such result for Thompson sampling in a
diffusion process control problem. We validate our theoretical results through
empirical simulations with real parameter matrices from two settings of
airplane and blood glucose control. Moreover, we observe that Thompson sampling
significantly improves (worst-case) regret, compared to the state-of-the-art
algorithms, suggesting Thompson sampling explores in a more guarded fashion.
Our theoretical analysis involves characterization of a certain optimality
manifold that ties the local geometry of the drift parameters to the optimal
control of the diffusion process. We expect this technique to be of broader
interest.
- Abstract(参考訳): 線形確率微分方程式に従って進化する拡散過程は、連続時間動的決定モデルの重要なファミリーである。
最適政策は、ドリフト行列に関する完全な確実性の下で、彼らにとってよく研究されている。
しかし、従来の離散時間解析手法は適用できないため、不確定なドリフト行列を持つ拡散過程のデータ駆動制御についてはほとんど知られていない。
また,この課題は探索・搾取トレードオフを含む強化学習問題と見なすことができるが,システム安定性の確保は最適な政策を設計するための基本的な要素である。
人気のあるトンプソンサンプリングアルゴリズムは, 最適動作を高速に学習し, 後悔の2乗根のみを伴い, 短時間で安定化する。
我々の知る限りでは、この結果は拡散過程制御問題におけるトンプソンサンプリングの最初の結果である。
航空機と血糖コントロールの2つの設定から,実パラメータ行列を用いた実験シミュレーションにより理論的結果を検証する。
さらに,トンプソンサンプリングは最先端のアルゴリズムに比べて後悔を著しく改善し,トンプソンサンプリングはよりガードされた方法で探索することが示唆された。
理論解析では,ドリフトパラメータの局所幾何構造と拡散過程の最適制御を関連付けた,ある最適性多様体のキャラクタリゼーションを行う。
私たちはこのテクニックがより広い関心を持つことを期待しています。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Data-driven rules for multidimensional reflection problems [1.0742675209112622]
反射型制御を伴う可逆拡散に対する多変量特異制御問題について検討する。
与えられた拡散力学に対して、最適な領域が強い星型であると仮定し、ポリトープ近似に基づく勾配降下アルゴリズムを提案し、コスト最小化領域を数値的に決定する。
最後に,制御器に拡散力学が未知な場合のデータ駆動型解について検討する。
論文 参考訳(メタデータ) (2023-11-11T18:36:17Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Stochastic optimal well control in subsurface reservoirs using
reinforcement learning [0.0]
本稿では,パラメータの不確実性分布の最適制御を行うためのモデルフリー強化学習フレームワークのケーススタディを提案する。
原理的には、RLアルゴリズムは数値報酬信号の最大化のために最適な行動ポリシーを学習することができる。
提案手法は,2つの水面流動試験ケースに対して,2つの最先端RLアルゴリズム,PPO,A2Cを用いて数値計算を行った。
論文 参考訳(メタデータ) (2022-07-07T17:34:23Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Reinforcement Learning Policies in Continuous-Time Linear Systems [0.0]
パラメータ推定を慎重にランダムにすることで、最適行動の学習を迅速に行うオンラインポリシーを提案する。
非接触系の力学に対する鋭い安定性を証明し、準最適動作による無限小の後悔を厳密に特定する。
我々の分析は、継続的強化学習における基本的な課題に光を当て、同様の問題に対する有用な基礎となることを示唆している。
論文 参考訳(メタデータ) (2021-09-16T00:08:50Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。