論文の概要: Analysis of Thompson Sampling for Controlling Unknown Linear Diffusion Processes
- arxiv url: http://arxiv.org/abs/2206.09977v2
- Date: Sat, 07 Jun 2025 21:53:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:46.711301
- Title: Analysis of Thompson Sampling for Controlling Unknown Linear Diffusion Processes
- Title(参考訳): 未知線形拡散過程制御のためのトンプソンサンプリングの解析
- Authors: Mohamad Kazem Shirani Faradonbeh, Sadegh Shirani, Mohsen Bayati,
- Abstract要約: 線形拡散過程は、不確実性の下での動的決定のための標準連続時間モデルとして機能する。
未知のドリフト行列を持つ線形拡散過程における決定のためのトンプソンサンプリングアルゴリズムについて検討する。
我々は,トンプソンサンプリングが最適制御動作を高速に学習することを示す。
- 参考スコア(独自算出の注目度): 6.076406622352117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear diffusion processes serve as canonical continuous-time models for dynamic decision-making under uncertainty. These systems evolve according to drift matrices that specify the instantaneous rates of change in the expected system state, while also experiencing continuous random disturbances modeled by Brownian noise. For instance, in medical applications such as artificial pancreas systems, the drift matrices represent the internal dynamics of glucose concentrations. Classical results in stochastic control provide optimal policies under perfect knowledge of the drift matrices. However, practical decision-making scenarios typically feature uncertainty about the drift; in medical contexts, such parameters are patient-specific and unknown, requiring adaptive policies for efficiently learning the drift matrices while ensuring system stability and optimal performance. We study the Thompson sampling (TS) algorithm for decision-making in linear diffusion processes with unknown drift matrices. For this algorithm that designs control policies as if samples from a posterior belief about the parameters fully coincide with the unknown truth, we establish efficiency. That is, Thompson sampling learns optimal control actions fast, incurring only a square-root of time regret, and also learns to stabilize the system in a short time period. To our knowledge, this is the first such result for TS in a diffusion process control problem. Moreover, our empirical simulations in three settings that involve blood-glucose and flight control demonstrate that TS significantly improves regret, compared to the state-of-the-art algorithms, suggesting it explores in a more guarded fashion. Our theoretical analysis includes characterization of a certain optimality manifold that relates the geometry of the drift matrices to the optimal control of the diffusion process, among others.
- Abstract(参考訳): 線形拡散過程は、不確実性の下での動的決定のための標準連続時間モデルとして機能する。
これらのシステムは、予測されたシステム状態の変化の即時率を示すドリフト行列に従って進化し、ブラウン雑音によってモデル化された連続的なランダムな乱れを経験する。
例えば、人工膵などの医療応用では、ドリフト行列はグルコース濃度の内部ダイナミクスを表す。
古典的な確率制御の結果は、ドリフト行列の完全な知識の下で最適なポリシーを提供する。
しかし、実際的な意思決定シナリオでは、ドリフトに関する不確実性が特徴であり、医療的文脈では、そのようなパラメータは患者固有のもので未知であり、ドリフト行列を効率よく学習し、システムの安定性と最適な性能を確保するために適応的なポリシーを必要とする。
我々は、未知のドリフト行列を持つ線形拡散過程における決定のためのトンプソンサンプリング(TS)アルゴリズムについて検討した。
パラメータに関する後続の信念からのサンプルを未知の真実と完全に一致するように制御ポリシーを設計するこのアルゴリズムでは、効率性を確立する。
すなわち、トンプソンサンプリングは最適制御動作を高速に学習し、時間の平方根だけを発生させ、短時間でシステムの安定化を学習する。
我々の知る限り、これは拡散過程制御問題におけるTSに対する最初の結果である。
さらに、血液グルコースとフライトコントロールを含む3つの環境での実験シミュレーションを行ったところ、TSは最先端のアルゴリズムと比較して、後悔を著しく改善し、より保護された方法で探索することが示唆された。
我々の理論解析は、ドリフト行列の幾何学と拡散過程の最適制御を関連付ける、ある最適性多様体の特徴づけを含む。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Data-driven rules for multidimensional reflection problems [1.0742675209112622]
反射型制御を伴う可逆拡散に対する多変量特異制御問題について検討する。
与えられた拡散力学に対して、最適な領域が強い星型であると仮定し、ポリトープ近似に基づく勾配降下アルゴリズムを提案し、コスト最小化領域を数値的に決定する。
最後に,制御器に拡散力学が未知な場合のデータ駆動型解について検討する。
論文 参考訳(メタデータ) (2023-11-11T18:36:17Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Stochastic optimal well control in subsurface reservoirs using
reinforcement learning [0.0]
本稿では,パラメータの不確実性分布の最適制御を行うためのモデルフリー強化学習フレームワークのケーススタディを提案する。
原理的には、RLアルゴリズムは数値報酬信号の最大化のために最適な行動ポリシーを学習することができる。
提案手法は,2つの水面流動試験ケースに対して,2つの最先端RLアルゴリズム,PPO,A2Cを用いて数値計算を行った。
論文 参考訳(メタデータ) (2022-07-07T17:34:23Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Reinforcement Learning Policies in Continuous-Time Linear Systems [0.0]
パラメータ推定を慎重にランダムにすることで、最適行動の学習を迅速に行うオンラインポリシーを提案する。
非接触系の力学に対する鋭い安定性を証明し、準最適動作による無限小の後悔を厳密に特定する。
我々の分析は、継続的強化学習における基本的な課題に光を当て、同様の問題に対する有用な基礎となることを示唆している。
論文 参考訳(メタデータ) (2021-09-16T00:08:50Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。