論文の概要: CACTO-SL: Using Sobolev Learning to improve Continuous Actor-Critic with
Trajectory Optimization
- arxiv url: http://arxiv.org/abs/2312.10666v1
- Date: Sun, 17 Dec 2023 09:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:07:41.218236
- Title: CACTO-SL: Using Sobolev Learning to improve Continuous Actor-Critic with
Trajectory Optimization
- Title(参考訳): CACTO-SL: 軌道最適化によるソボレフ学習による連続的アクター批判の改善
- Authors: Elisa Alboni, Gianluigi Grandesso, Gastone Pietro Rosati Papini,
Justin Carpentier, Andrea Del Prete
- Abstract要約: トラボ学習ガイドTOと強化学習(RL)は最適な制御問題を解決するための強力なツールである。
本稿では,Solev-SLのアイデアを利用したCACTOの拡張について述べる。
- 参考スコア(独自算出の注目度): 12.115023915042617
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Trajectory Optimization (TO) and Reinforcement Learning (RL) are powerful and
complementary tools to solve optimal control problems. On the one hand, TO can
efficiently compute locally-optimal solutions, but it tends to get stuck in
local minima if the problem is not convex. On the other hand, RL is typically
less sensitive to non-convexity, but it requires a much higher computational
effort. Recently, we have proposed CACTO (Continuous Actor-Critic with
Trajectory Optimization), an algorithm that uses TO to guide the exploration of
an actor-critic RL algorithm. In turns, the policy encoded by the actor is used
to warm-start TO, closing the loop between TO and RL. In this work, we present
an extension of CACTO exploiting the idea of Sobolev learning. To make the
training of the critic network faster and more data efficient, we enrich it
with the gradient of the Value function, computed via a backward pass of the
differential dynamic programming algorithm. Our results show that the new
algorithm is more efficient than the original CACTO, reducing the number of TO
episodes by a factor ranging from 3 to 10, and consequently the computation
time. Moreover, we show that CACTO-SL helps TO to find better minima and to
produce more consistent results.
- Abstract(参考訳): 軌道最適化(TO)と強化学習(RL)は最適制御問題を解決するための強力な補完ツールである。
一方、局所最適解を効率的に計算できるが、問題が凸でない場合、局所最小解で立ち往生する傾向がある。
一方、RLは一般に非凸性に対する感度が低いが、より高い計算労力を必要とする。
近年,アクタークリティカルなRLアルゴリズムの探索を誘導するためにTOを用いたアルゴリズムであるCACTO(Continuous Actor-Critic with Trajectory Optimization)を提案する。
アクターがエンコードしたポリシーはウォームスタートに使用され、toとrlの間のループを閉じる。
本稿では,ソボレフ学習のアイデアを活用したCACTOの拡張について述べる。
批判ネットワークのトレーニングを迅速かつ効率的に行うために,差分動的プログラミングアルゴリズムの後方通過によって計算される値関数の勾配を用いて,それを拡張する。
その結果,新しいアルゴリズムは元のCACTOよりも効率が良く,3から10の係数でTOエピソードの数を減らし,計算時間を短縮できることがわかった。
さらに,CACTO-SLはTOの最小化に役立ち,より一貫した結果が得られることを示す。
関連論文リスト
- Provably Efficient Offline Goal-Conditioned Reinforcement Learning with
General Function Approximation and Single-Policy Concentrability [11.786486763236104]
ゴール条件強化学習(ゴール条件強化学習、GCRL)とは、様々な目標を達成するための汎用スキルの学習である。
オフラインのGCRLは、トレーニングタスクを実行するために純粋にコンパイル済みのデータセットのみを必要とする。
修正されたオフラインGCRLアルゴリズムは、一般関数近似と単一政治集中性の両方で有効であることを示す。
論文 参考訳(メタデータ) (2023-02-07T22:04:55Z) - Adaptive Federated Minimax Optimization with Lower Complexities [82.51223883622552]
本稿では,これらのミニマックス問題の解法として,適応最小最適化アルゴリズム(AdaFGDA)を提案する。
運動量に基づく還元および局所SGD技術を構築し、様々な適応学習率を柔軟に組み込む。
論文 参考訳(メタデータ) (2022-11-14T12:32:18Z) - CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards
global optimality [5.0915256711576475]
本稿では,Tlayy(TO)とReinforcement Learning(RL)を1つの軌道で組み合わせた,動的システムの連続制御のための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-12T10:16:35Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Recursive Least Squares Advantage Actor-Critic Algorithms [20.792917267835247]
2つの新しいRSSベースのアドバンテージアクター批評家アルゴリズム(A2C)を提案する。
RLSSA2C と RLSNA2C は RLS 法を用いて批評家ネットワークとアクターネットワークの隠れ層を訓練する。
実験結果から,両アルゴリズムは,ほとんどのゲームやタスクにおいて,バニラA2Cよりもサンプリング効率がよいことがわかった。
論文 参考訳(メタデータ) (2022-01-15T20:00:26Z) - Constraint Sampling Reinforcement Learning: Incorporating Expertise For
Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。
我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。
すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文 参考訳(メタデータ) (2021-12-30T22:02:42Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Channel Assignment in Uplink Wireless Communication using Machine
Learning Approach [54.012791474906514]
本稿では,アップリンク無線通信システムにおけるチャネル割り当て問題について検討する。
我々の目標は、整数チャネル割り当て制約を受ける全ユーザの総和率を最大化することです。
計算複雑性が高いため、機械学習アプローチは計算効率のよい解を得るために用いられる。
論文 参考訳(メタデータ) (2020-01-12T15:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。