Fugu-MT 論文翻訳(概要): Deep reinforcement learning with symmetric data augmentation applied for aircraft lateral attitude tracking control

論文の概要: Deep reinforcement learning with symmetric data augmentation applied for aircraft lateral attitude tracking control

arxiv url: http://arxiv.org/abs/2407.11077v1
Date: Sat, 13 Jul 2024 08:20:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 20:00:37.473035
Title: Deep reinforcement learning with symmetric data augmentation applied for aircraft lateral attitude tracking control
Title（参考訳）: 航空機横方向姿勢追跡制御に応用した対称データ拡張による深部強化学習
Authors: Yifei Li, Erik-jan van Kampen,
Abstract要約: 本稿では,標準Deep Deterministic Policy Gradient(DDPG)に基づく2つの対称性統合強化学習(RL)アルゴリズムを提案する。 RLアルゴリズムは環境対称性を利用してマルコフ決定過程(MDP)の探索的な遷移サンプルを増強する
参考スコア（独自算出の注目度）: 7.871518182413388
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Symmetry is an essential property in some dynamical systems that can be exploited for state transition prediction and control policy optimization. This paper develops two symmetry-integrated Reinforcement Learning (RL) algorithms based on standard Deep Deterministic Policy Gradient (DDPG),which leverage environment symmetry to augment explored transition samples of a Markov Decision Process(MDP). The firstly developed algorithm is named as Deep Deterministic Policy Gradient with Symmetric Data Augmentation (DDPG-SDA), which enriches dataset of standard DDPG algorithm by symmetric data augmentation method under symmetry assumption of a dynamical system. To further improve sample utilization efficiency, the second developed RL algorithm incorporates one extra critic network, which is independently trained with augmented dataset. A two-step approximate policy iteration method is proposed to integrate training for two critic networks and one actor network. The resulting RL algorithm is named as Deep Deterministic Policy Gradient with Symmetric Critic Augmentation (DDPG-SCA). Simulation results demonstrate enhanced sample efficiency and tracking performance of developed two RL algorithms in aircraft lateral tracking control task.
Abstract（参考訳）: 対称性は、状態遷移予測や制御ポリシー最適化に利用することができるいくつかの力学系において不可欠な性質である。本稿では,環境対称性を利用してマルコフ決定過程(MDP)の遷移サンプルを増大させる,標準的なDeep Deterministic Policy Gradient(DDPG)に基づく2つの対称性統合強化学習(RL)アルゴリズムを開発する。最初に開発されたアルゴリズムは、動的システムの対称性仮定の下で、標準DDPGアルゴリズムのデータセットを対称データ拡張法で強化するDDPG-SDA (Deep Deterministic Policy Gradient with Symmetric Data Augmentation) と呼ばれる。サンプル利用効率をさらに向上するため、第2に開発されたRLアルゴリズムは、拡張データセットで独立に訓練された1つの余分な批判ネットワークを組み込んだ。 2つの批評家ネットワークと1つのアクターネットワークのトレーニングを統合するために、2段階近似ポリシー反復法を提案する。結果のRLアルゴリズムは、シンメトリック・クリニック・アジュメンテーション(DDPG-SCA)によるDeep Deterministic Policy Gradient(Deep Deterministic Policy Gradient)と命名される。航空機横方向追尾制御タスクにおける2つのRLアルゴリズムの高効率化と追尾性能を示すシミュレーション結果を得た。

関連論文リスト

A Gradient Meta-Learning Joint Optimization for Beamforming and Antenna Position in Pinching-Antenna Systems [63.213207442368294]
マルチ導波路ピンチアンテナシステムの新しい最適化設計について検討する。提案したGML-JOアルゴリズムは,既存の最適化手法と比較して,様々な選択や性能に頑健である。
論文参考訳（メタデータ） (2025-06-14T17:35:27Z)
A Two-Timescale Primal-Dual Framework for Reinforcement Learning via Online Dual Variable Guidance [3.4354636842203026]
正規化マルコフ決定過程(MDP)の解法としてPGDA-RLを提案する。 PGDA-RLは、経験的リプレイに基づく勾配推定と、基礎となるネスト最適化問題の2段階の分解を統合する。 PGDA-RL は正規化 MDP の最適値関数とポリシーにほぼ確実に収束することを示す。
論文参考訳（メタデータ） (2025-05-07T15:18:43Z)
Broad Critic Deep Actor Reinforcement Learning for Continuous Control [5.440090782797941]
アクター批判強化学習(RL)アルゴリズムのための新しいハイブリッドアーキテクチャを提案する。提案したアーキテクチャは、広範学習システム(BLS)とディープニューラルネットワーク(DNN)を統合している。提案アルゴリズムの有効性を2つの古典的連続制御タスクに適用することにより評価する。
論文参考訳（メタデータ） (2024-11-24T12:24:46Z)
CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文参考訳（メタデータ） (2024-06-11T17:59:29Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
How does Your RL Agent Explore? An Optimal Transport Analysis of Occupancy Measure Trajectories [8.429001045596687]
我々は、RLアルゴリズムの学習過程を、トレーニング中に生成されたポリシーのシーケンスとして表現する。次に、状態-作用占有度尺度の多様体に誘導される政策軌跡について検討する。
論文参考訳（メタデータ） (2024-02-14T11:55:50Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Unsupervised Deep Unfolded PGD for Transmit Power Allocation in Wireless Systems [0.6091702876917281]
本稿では,反復射影勾配(PGD)アルゴリズムをニューラルネットワークの層に深く展開し,ステップサイズパラメータを学習する,単純な低複素性TPCアルゴリズムを提案する。高密度デバイス間通信(D2D)における性能評価の結果,提案手法は2回以上の繰り返し回数で反復アルゴリズムよりも優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2023-06-20T19:51:21Z)
Active RIS-aided EH-NOMA Networks: A Deep Reinforcement Learning Approach [66.53364438507208]
アクティブな再構成可能なインテリジェントサーフェス(RIS)支援マルチユーザダウンリンク通信システムについて検討した。非直交多重アクセス(NOMA)はスペクトル効率を向上させるために使用され、活性RISはエネルギー回収(EH)によって駆動される。ユーザの動的通信状態を予測するために,高度なLSTMベースのアルゴリズムを開発した。増幅行列と位相シフト行列RISを結合制御するためにDDPGに基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-11T13:16:28Z)
Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。 Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文参考訳（メタデータ） (2022-12-29T18:25:01Z)
Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文参考訳（メタデータ） (2021-06-30T16:49:07Z)
Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文参考訳（メタデータ） (2021-04-09T14:50:59Z)
Single-step deep reinforcement learning for open-loop control of laminar and turbulent flows [0.0]
本研究は,流体力学系の最適化と制御を支援するための深部強化学習(DRL)技術の能力を評価する。原型ポリシー最適化(PPO)アルゴリズムの新たな"退化"バージョンを組み合わせることで、学習エピソード当たり1回だけシステムを最適化するニューラルネットワークをトレーニングする。
論文参考訳（メタデータ） (2020-06-04T16:11:26Z)
Optimization-driven Deep Reinforcement Learning for Robust Beamforming in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文参考訳（メタデータ） (2020-05-25T01:42:55Z)
Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文参考訳（メタデータ） (2020-02-28T08:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。