論文の概要: Policy Transfer Ensures Fast Learning for Continuous-Time LQR with Entropy Regularization
- arxiv url: http://arxiv.org/abs/2510.15165v1
- Date: Thu, 16 Oct 2025 21:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.40366
- Title: Policy Transfer Ensures Fast Learning for Continuous-Time LQR with Entropy Regularization
- Title(参考訳): ポリシー転送によりエントロピー規則付き連続時間LQRの高速学習が保証される
- Authors: Xin Guo, Zijiu Lyu,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、エージェントが環境とのインタラクションを通じて最適な意思決定戦略を学習することを可能にする。
本稿では,対象のRLタスクにおける学習を,関連するソースタスクからのポリシーを用いて初期化するTLアプローチであるポリシ転送について検討する。
本稿では,大域的線形および局所的超線形収束を実現する,連続時間LQRのための新しいポリシー学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.494814157306265
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning (RL) enables agents to learn optimal decision-making strategies through interaction with an environment, yet training from scratch on complex tasks can be highly inefficient. Transfer learning (TL), widely successful in large language models (LLMs), offers a promising direction for enhancing RL efficiency by leveraging pre-trained models. This paper investigates policy transfer, a TL approach that initializes learning in a target RL task using a policy from a related source task, in the context of continuous-time linear quadratic regulators (LQRs) with entropy regularization. We provide the first theoretical proof of policy transfer for continuous-time RL, proving that a policy optimal for one LQR serves as a near-optimal initialization for closely related LQRs, while preserving the original algorithm's convergence rate. Furthermore, we introduce a novel policy learning algorithm for continuous-time LQRs that achieves global linear and local super-linear convergence. Our results demonstrate both theoretical guarantees and algorithmic benefits of transfer learning in continuous-time RL, addressing a gap in existing literature and extending prior work from discrete to continuous time settings. As a byproduct of our analysis, we derive the stability of a class of continuous-time score-based diffusion models via their connection with LQRs.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、エージェントが環境とのインタラクションを通じて最適な意思決定戦略を学習することを可能にする。
大規模な言語モデル(LLM)で広く成功しているトランスファーラーニング(TL)は、事前訓練されたモデルを活用することで、RL効率を高めるための有望な方向を提供する。
本稿では,LQR(Continuous-time linear quadratic regulators)とエントロピー正規化(Entropy regularization)の文脈において,関連するソースタスクからのポリシを用いて,ターゲットRLタスクの学習を初期化するTL手法であるポリシ転送について検討する。
提案手法は,連続時間RLのポリシ転送に関する最初の理論的証明であり,一方のLQRに最適なポリシが,元のアルゴリズムの収束率を保ちながら,密接に関連するLQRのほぼ最適初期化として機能することを証明している。
さらに,グローバル線形および局所超線形収束を実現するために,連続時間LQRに対する新しいポリシー学習アルゴリズムを提案する。
本研究は, 連続時間RLにおける伝達学習の理論的保証とアルゴリズム的メリットを両立させ, 既存文献のギャップを解消し, 先行研究を離散時間から連続時間に拡張した。
解析の副産物として,LQRと接続した連続時間スコアベース拡散モデルの安定性を導出する。
関連論文リスト
- Continuous-Time Reinforcement Learning for Asset-Liability Management [0.0]
本稿では,連続時間強化学習(RL)を用いたアセット・リバビリティ・マネジメント(ALM)の新しいアプローチを提案する。
本研究では,アセットと負債を動的に同期する ALM に適した,モデルフリーでポリシー勾配に基づくソフトアクター批判アルゴリズムを開発した。
本研究は,従来の2つの金融戦略,モデルベース連続時間RL法,最先端RLアルゴリズムに対するアプローチを実証的に評価する。
論文 参考訳(メタデータ) (2025-09-27T12:36:51Z) - A Two-Timescale Primal-Dual Framework for Reinforcement Learning via Online Dual Variable Guidance [3.4354636842203026]
正規化マルコフ決定過程(MDP)の解法としてPGDA-RLを提案する。
PGDA-RLは、経験的リプレイに基づく勾配推定と、基礎となるネスト最適化問題の2段階の分解を統合する。
PGDA-RL は正規化 MDP の最適値関数とポリシーにほぼ確実に収束することを示す。
論文 参考訳(メタデータ) (2025-05-07T15:18:43Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - An advantage based policy transfer algorithm for reinforcement learning with measures of transferability [5.926203312586109]
強化学習(Reinforcement Learning, RL)は, 複雑・高次元環境における逐次的意思決定を可能にする。
本稿では、固定されたドメイン環境に対する非政治アドバンテージベースのポリシー転送アルゴリズムであるAPT-RLを提案する。
論文 参考訳(メタデータ) (2023-11-12T04:25:53Z) - COPR: Continual Learning Human Preference through Optimal Policy Regularization [32.54658750353585]
我々はCOPR(Continuous Optimal Policy Regularization)と呼ばれる新しい手法を提案する。
COPRは単一の学習フェーズを含み、複雑な強化学習を必要としない。
実験の結果、COPRは強力な継続的学習(CL)ベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T10:05:32Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。