論文の概要: Model-based adaptation for sample efficient transfer in reinforcement
learning control of parameter-varying systems
- arxiv url: http://arxiv.org/abs/2305.12158v1
- Date: Sat, 20 May 2023 10:11:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 00:05:45.124058
- Title: Model-based adaptation for sample efficient transfer in reinforcement
learning control of parameter-varying systems
- Title(参考訳): パラメータ変動系の強化学習制御におけるサンプル効率変換のためのモデルベース適応
- Authors: Ibrahim Ahmed and Marcos Quinones-Grueiro and Gautam Biswas
- Abstract要約: 我々はモデルに基づく制御のアイデアを活用し、強化学習アルゴリズムのサンプル効率問題に対処する。
また,本手法は強化学習のみでの微調整よりもサンプリング効率が高いことを示した。
- 参考スコア(独自算出の注目度): 1.8799681615947088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we leverage ideas from model-based control to address the
sample efficiency problem of reinforcement learning (RL) algorithms.
Accelerating learning is an active field of RL highly relevant in the context
of time-varying systems. Traditional transfer learning methods propose to use
prior knowledge of the system behavior to devise a gradual or immediate
data-driven transformation of the control policy obtained through RL. Such
transformation is usually computed by estimating the performance of previous
control policies based on measurements recently collected from the system.
However, such retrospective measures have debatable utility with no guarantees
of positive transfer in most cases. Instead, we propose a model-based
transformation, such that when actions from a control policy are applied to the
target system, a positive transfer is achieved. The transformation can be used
as an initialization for the reinforcement learning process to converge to a
new optimum. We validate the performance of our approach through four benchmark
examples. We demonstrate that our approach is more sample-efficient than
fine-tuning with reinforcement learning alone and achieves comparable
performance to linear-quadratic-regulators and model-predictive control when an
accurate linear model is known in the three cases. If an accurate model is not
known, we empirically show that the proposed approach still guarantees positive
transfer with jump-start improvement.
- Abstract(参考訳): 本稿では,モデルベース制御のアイデアを活用し,強化学習(RL)アルゴリズムのサンプル効率問題に対処する。
加速学習は、時間変化システムの文脈において、RLの活発な分野である。
従来の伝達学習手法では、システム行動の事前知識を用いて、RLによって得られる制御ポリシーの漸進的あるいは即時的なデータ駆動変換を考案する。
このような変換は通常、システムから最近収集された測定に基づいて、以前の制御ポリシーのパフォーマンスを推定することによって計算される。
しかし、このようなふりかえりの措置は、大抵の場合、ポジティブな移行の保証がない、議論の余地がある。
代わりに、制御ポリシーからのアクションがターゲットシステムに適用されると、ポジティブな転送が達成されるモデルベースのトランスフォーメーションを提案する。
この変換は強化学習プロセスを新しい最適に収束させるための初期化として使うことができる。
提案手法の性能を4つのベンチマーク例で検証する。
本手法は強化学習のみによる微調整よりもサンプル効率が高く, 3つのケースで正確な線形モデルが知られている場合, 線形量子制御器やモデル予測制御と同等の性能が得られることを示す。
正確なモデルが分かっていない場合、提案手法が跳躍開始改善による正の伝達を保証することを実証的に示す。
関連論文リスト
- Active Learning for Control-Oriented Identification of Nonlinear Systems [26.231260751633307]
本稿では,非線形力学の一般クラスに適した能動学習アルゴリズムの最初の有限サンプル解析について述べる。
ある設定では、アルゴリズムの過剰な制御コストは、対数係数まで、最適な速度を達成する。
我々は,非線形システムの制御におけるアクティブな制御指向探索の利点を示すとともに,シミュレーションにおける我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-04-13T15:40:39Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Model Based Residual Policy Learning with Applications to Antenna
Control [5.01069065110753]
遠隔通信ネットワークやロボットなどの実システムを制御するために、微分不能なコントローラやルールベースのポリシーが広く使われている。
アンテナ傾斜制御問題に触発されたモデルベース残留政策学習(MBRPL)を実践的強化学習(RL)法として導入する。
論文 参考訳(メタデータ) (2022-11-16T09:48:14Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Backward Imitation and Forward Reinforcement Learning via Bi-directional
Model Rollouts [11.4219428942199]
従来のモデルベース強化学習(RL)手法は、学習力学モデルを用いて前方ロールアウトトレースを生成する。
本稿では,後方模倣とフォワード強化学習(BIFRL)フレームワークを提案する。
BIFRLは、より効率的な方法で高価値状態に到達し、探索するエージェントに権限を与える。
論文 参考訳(メタデータ) (2022-08-04T04:04:05Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Control-Aware Representations for Model-based Reinforcement Learning [36.221391601609255]
現代の強化学習(RL)における大きな課題は、高次元の感覚観測から力学系の効率的な制御である。
学習制御可能な埋め込み(LCE)は、観測結果を低次元の潜在空間に埋め込むことによって、この問題に対処する有望なアプローチである。
この領域における2つの重要な疑問は、手前の制御問題に対処可能な表現の学習方法と、表現学習と制御のためのエンドツーエンドフレームワークの達成方法である。
論文 参考訳(メタデータ) (2020-06-24T01:00:32Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。