Fugu-MT 論文翻訳(概要): Reinforcement Learning for a Discrete-Time Linear-Quadratic Control Problem with an Application

論文の概要: Reinforcement Learning for a Discrete-Time Linear-Quadratic Control Problem with an Application

arxiv url: http://arxiv.org/abs/2412.05906v1
Date: Sun, 08 Dec 2024 11:55:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.082329
Title: Reinforcement Learning for a Discrete-Time Linear-Quadratic Control Problem with an Application
Title（参考訳）: 離散時間線形量子制御問題に対する強化学習とその応用
Authors: Lucky Li,
Abstract要約: 強化学習(RL)を用いた離散時間線形四分法(LQ)制御モデルについて検討する。探索コストを測定するためにエントロピーを用いることで、問題の最適フィードバックポリシーはガウス型でなければならないことを示す。次に、離散時間LQモデルの結果を適用し、離散時間平均分散資産-信頼性管理問題を解き、RLアルゴリズムのポリシー改善と収束性を証明する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the discrete-time linear-quadratic (LQ) control model using reinforcement learning (RL). Using entropy to measure the cost of exploration, we prove that the optimal feedback policy for the problem must be Gaussian type. Then, we apply the results of the discrete-time LQ model to solve the discrete-time mean-variance asset-liability management problem and prove our RL algorithm's policy improvement and convergence. Finally, a numerical example sheds light on the theoretical results established using simulations.
Abstract（参考訳）: 強化学習(RL)を用いた離散時間線形四分法(LQ)制御モデルについて検討した。探索コストを測定するためにエントロピーを用いることで、問題の最適フィードバックポリシーはガウス型でなければならないことを示す。次に、離散時間LQモデルの結果を適用し、離散時間平均分散資産-信頼性管理問題を解き、RLアルゴリズムのポリシー改善と収束性を証明する。最後に、数値的な例は、シミュレーションを用いて確立された理論結果に光を当てる。

関連論文リスト

Data-Driven Exploration for a Class of Continuous-Time Indefinite Linear--Quadratic Reinforcement Learning Problems [6.859965454961918]
本研究では,LQ制御問題に対する強化学習について検討する。本稿では, モデルフリーでデータ駆動型探索機構を提案し, 批判者によるエントロピー正規化を適応的に調整する。本手法は,LQ問題のクラスにおいて,最もよく知られたモデルフリーな結果と一致するサブ線形後悔境界を実現する。
論文参考訳（メタデータ） (2025-07-01T01:09:06Z)
Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文参考訳（メタデータ） (2024-10-07T23:38:58Z)
Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文参考訳（メタデータ） (2024-08-05T14:11:51Z)
Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文参考訳（メタデータ） (2024-07-24T12:26:21Z)
Continuous-Time Model-Based Reinforcement Learning [4.427447378048202]
本稿では,新しいアクター・クリティック手法に基づく連続時間MBRLフレームワークを提案する。我々は、連続時間制御システムを明確に解決する新しいODE-RLスイート上で、本手法を実装し、テストする。
論文参考訳（メタデータ） (2021-02-09T11:30:19Z)
Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文参考訳（メタデータ） (2020-11-14T01:27:32Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Robust Reinforcement Learning: A Case Study in Linear Quadratic Regulation [23.76925146112261]
本稿では,学習過程における誤りに対する強化学習アルゴリズムの堅牢性について検討する。 LQRのポリシーイテレーションは、学習過程における小さなエラーに対して本質的に堅牢であることが示されている。
論文参考訳（メタデータ） (2020-08-25T11:11:28Z)
A spectral algorithm for robust regression with subgaussian rates [0.0]
本研究では, 試料の分布に強い仮定がない場合の線形回帰に対する2次時間に対する新しい線形アルゴリズムについて検討する。目的は、データが有限モーメントしか持たなくても最適な準ガウス誤差を達成できる手順を設計することである。
論文参考訳（メタデータ） (2020-07-12T19:33:50Z)
Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文参考訳（メタデータ） (2020-07-11T19:44:09Z)
Adaptive Control and Regret Minimization in Linear Quadratic Gaussian (LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。 LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文参考訳（メタデータ） (2020-03-12T19:56:38Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。