論文の概要: Application of linear regression method to the deep reinforcement learning in continuous action cases
- arxiv url: http://arxiv.org/abs/2503.14976v1
- Date: Wed, 19 Mar 2025 08:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:19.872681
- Title: Application of linear regression method to the deep reinforcement learning in continuous action cases
- Title(参考訳): 線形回帰法の連続行動事例における深部強化学習への応用
- Authors: Hisato Komatsu,
- Abstract要約: LeineらによりLast Squares Deep Q Network (LS-DQN)法が提案された。
本稿では,この制限に対応するために,Double Least Squares Deep Deterministic Policy Gradient (DLS-DDPG)法を提案する。
MuJoCo環境での数値実験により、少なくともいくつかのタスクにおいてLR更新により性能が向上したことが示された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The linear regression (LR) method offers the advantage that optimal parameters can be calculated relatively easily, although its representation capability is limited than that of the deep learning technique. To improve deep reinforcement learning, the Least Squares Deep Q Network (LS-DQN) method was proposed by Levine et al., which combines Deep Q Network (DQN) with LR method. However, the LS-DQN method assumes that the actions are discrete. In this study, we propose the Double Least Squares Deep Deterministic Policy Gradient (DLS-DDPG) method to address this limitation. This method combines the LR method with the Deep Deterministic Policy Gradient (DDPG) technique, one of the representative deep reinforcement learning algorithms for continuous action cases. Numerical experiments conducted in MuJoCo environments showed that the LR update improved performance at least in some tasks, although there are difficulties such as the inability to make the regularization terms small.
- Abstract(参考訳): 線形回帰(LR)法は,その表現能力は深層学習法よりも限られているが,最適パラメータを比較的容易に計算できるという利点がある。
深部強化学習を改善するため,LevineらによりLast Squares Deep Q Network (LS-DQN)法が提案され,DQN法とLR法を組み合わせた。
しかし、LS-DQN法は作用が離散的であると仮定する。
本研究では,この制限に対応するために,Double Least Squares Deep Deterministic Policy Gradient (DLS-DDPG)法を提案する。
本手法は, LR法とDDPG(Deep Deterministic Policy Gradient)法を組み合わせる。
MuJoCo環境下での数値実験により、LR更新によって少なくとも一部のタスクでは性能が向上したが、正規化項を小さくすることができないなどの問題があった。
関連論文リスト
- An Augmented Backward-Corrected Projector Splitting Integrator for Dynamical Low-Rank Training [47.69709732622765]
必要なQR分解数を削減できる新しい低ランクトレーニング手法を提案する。
提案手法は,プロジェクタ分割方式に拡張ステップを組み込むことにより,局所最適解への収束を確保する。
論文 参考訳(メタデータ) (2025-02-05T09:03:50Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - RLCFR: Minimize Counterfactual Regret by Deep Reinforcement Learning [15.126468724917288]
本稿では,CFR法の一般化能力の向上を目的としたRCCFRフレームワークを提案する。
RLCFRでは、強化学習フレームワークにおいて、CFRによってゲーム戦略が解決される。
提案手法であるRCCFRは,繰り返し更新の過程において,適切な後悔の方法を選択するためのポリシーを学習する。
論文 参考訳(メタデータ) (2020-09-10T14:20:33Z) - Robust Reinforcement Learning: A Case Study in Linear Quadratic
Regulation [23.76925146112261]
本稿では,学習過程における誤りに対する強化学習アルゴリズムの堅牢性について検討する。
LQRのポリシーイテレーションは、学習過程における小さなエラーに対して本質的に堅牢であることが示されている。
論文 参考訳(メタデータ) (2020-08-25T11:11:28Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。