論文の概要: Dynamic Entropy Tuning in Reinforcement Learning Low-Level Quadcopter Control: Stochasticity vs Determinism
- arxiv url: http://arxiv.org/abs/2512.18336v1
- Date: Sat, 20 Dec 2025 12:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.2953
- Title: Dynamic Entropy Tuning in Reinforcement Learning Low-Level Quadcopter Control: Stochasticity vs Determinism
- Title(参考訳): 低レベルクアッドコプター制御の強化学習における動的エントロピーチューニング:確率性対決定性
- Authors: Youssef Mahran, Zeyad Gamal, Ayman El-Badawy,
- Abstract要約: 本稿では,ポリシーを学習する強化学習(RL)アルゴリズムにおける動的エントロピーチューニングの影響について検討する。
トレーニングとシミュレーションの結果は、動的エントロピーチューニングがクワッドコプターを制御する上での正の効果を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the impact of dynamic entropy tuning in Reinforcement Learning (RL) algorithms that train a stochastic policy. Its performance is compared against algorithms that train a deterministic one. Stochastic policies optimize a probability distribution over actions to maximize rewards, while deterministic policies select a single deterministic action per state. The effect of training a stochastic policy with both static entropy and dynamic entropy and then executing deterministic actions to control the quadcopter is explored. It is then compared against training a deterministic policy and executing deterministic actions. For the purpose of this research, the Soft Actor-Critic (SAC) algorithm was chosen for the stochastic algorithm while the Twin Delayed Deep Deterministic Policy Gradient (TD3) was chosen for the deterministic algorithm. The training and simulation results show the positive effect the dynamic entropy tuning has on controlling the quadcopter by preventing catastrophic forgetting and improving exploration efficiency.
- Abstract(参考訳): 本稿では,確率的ポリシを学習する強化学習(RL)アルゴリズムにおける動的エントロピーチューニングの影響について検討する。
その性能は決定論的アルゴリズムと比較される。
確率的政策は報酬を最大化するために行動上の確率分布を最適化し、決定論的政策は状態ごとに一つの決定論的行動を選択する。
静的エントロピーと動的エントロピーの両方で確率的ポリシーを訓練し、クワッドコプターを制御するための決定論的行動を実行することの効果について検討した。
その後、決定主義的な政策を訓練し、決定主義的な行動を実行することと比較される。
本研究の目的のために、確率的アルゴリズムとしてソフトアクター・クリティカル(SAC)アルゴリズムが、決定論的アルゴリズムにはツイン遅延Deep Deterministic Policy Gradient(TD3)が選ばれた。
トレーニングおよびシミュレーション結果から, 動的エントロピー調整がカタストロフィな忘れ込みを防止し, 探索効率を向上させることにより, クワッドコプターの制御に対する正の効果を示した。
関連論文リスト
- Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning [9.779769486156631]
ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。
この探索-探索トレードオフはエントロピー正則化の強さによって決定される。
どちらの学習アルゴリズムも、$mathcalO(sqrtN)$(対数係数まで)を$N$のエピソードよりも高く、文献から最もよく知られた結果と一致することを証明している。
論文 参考訳(メタデータ) (2022-08-08T23:36:40Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - An Efficient Algorithm for Deep Stochastic Contextual Bandits [10.298368632706817]
コンテキスト境界の問題では、エージェントは特定の観察されたコンテキストに基づいてアクションを選択し、反復よりも報酬を最大化します。
近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われ、勾配に基づく手法で訓練されている。
論文 参考訳(メタデータ) (2021-04-12T16:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。