論文の概要: Safe Hierarchical Reinforcement Learning for CubeSat Task Scheduling
Based on Energy Consumption
- arxiv url: http://arxiv.org/abs/2309.12004v1
- Date: Thu, 21 Sep 2023 12:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 15:28:45.533842
- Title: Safe Hierarchical Reinforcement Learning for CubeSat Task Scheduling
Based on Energy Consumption
- Title(参考訳): エネルギー消費に基づくcubesatタスクスケジューリングのための安全階層強化学習
- Authors: Mahya Ramezani, M. Amin Alandihallaj, Jose Luis Sanchez-Lopez, and
Andreas Hein
- Abstract要約: 本稿では,低地球軌道(LEO)におけるキューブサットタスクスケジューリングの最適化に適した階層型強化学習手法を提案する。
本手法は,タスク優先順位付けのためのSABE(Simisity Attention-based convergence)と,エネルギー消費予測のための推定器を統合する。
シミュレーションの結果、階層強化学習の優位性とタスク成功率を検証し、MADDPGモデルと従来のランダムスケジューリングの両方に優れていた。
- 参考スコア(独自算出の注目度): 0.46603287532620735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a Hierarchical Reinforcement Learning methodology
tailored for optimizing CubeSat task scheduling in Low Earth Orbits (LEO).
Incorporating a high-level policy for global task distribution and a low-level
policy for real-time adaptations as a safety mechanism, our approach integrates
the Similarity Attention-based Encoder (SABE) for task prioritization and an
MLP estimator for energy consumption forecasting. Integrating this mechanism
creates a safe and fault-tolerant system for CubeSat task scheduling.
Simulation results validate the Hierarchical Reinforcement Learning superior
convergence and task success rate, outperforming both the MADDPG model and
traditional random scheduling across multiple CubeSat configurations.
- Abstract(参考訳): 本稿では,低地球軌道(LEO)におけるCubeSatタスクスケジューリングの最適化に適した階層型強化学習手法を提案する。
課題優先順位付けのための類似性注意型エンコーダ(SABE)とエネルギー消費予測のためのMLP推定器を統合し,グローバルなタスク分散のための高レベルポリシーとリアルタイム適応のための低レベルポリシーを安全メカニズムとして組み込んだ。
このメカニズムを統合することで、CubeSatタスクスケジューリングのための安全でフォールトトレラントなシステムを生成する。
シミュレーションの結果,複数のCubeSat構成におけるMADDPGモデルと従来のランダムスケジューリングの両方よりも優れた収束率とタスク成功率を示す。
関連論文リスト
- Generalization of Compositional Tasks with Logical Specification via Implicit Planning [14.46490764849977]
本稿では,タスク一般化の効率性と最適性を向上する階層的RLフレームワークを提案する。
高いレベルでは、作曲タスクの一般化に特化して設計された暗黙のプランナーを示す。
潜時遷移モデルを学び、グラフニューラルネットワーク(GNN)を用いて潜時空間で計画を実行する。
論文 参考訳(メタデータ) (2024-10-13T00:57:10Z) - A Distance Similarity-based Genetic Optimization Algorithm for Satellite Ground Network Planning Considering Feeding Mode [53.71516191515285]
衛星データ中継ミッションの送信効率の低さは、現在システムの構築を制約している問題となっている。
本研究では,タスク間の状態特性を考慮した距離類似性に基づく遺伝的最適化アルゴリズム(DSGA)を提案し,タスク間の類似性を決定するための重み付きユークリッド距離法を提案する。
論文 参考訳(メタデータ) (2024-08-29T06:57:45Z) - On efficient computation in active inference [1.1470070927586016]
計算量を大幅に減らした有限時間地平線に対する新しい計画アルゴリズムを提案する。
また、新規かつ既存のアクティブな推論計画スキームに対して適切な目標分布を設定するプロセスを簡単にする。
論文 参考訳(メタデータ) (2023-07-02T07:38:56Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Bottom-up mechanism and improved contract net protocol for the dynamic
task planning of heterogeneous Earth observation resources [61.75759893720484]
地球観測資源は、災害救助、被害評価、関連する領域においてますます不可欠になりつつある。
観測要求の変更や悪天候の発生、資源の失敗など、予測できない多くの要因は、スケジュールされた観測計画が実行不可能になる可能性がある。
不均質な地球観測資源の動的タスク計画を容易にするため、ボトムアップ分散協調フレームワークと改良された契約網を提案する。
論文 参考訳(メタデータ) (2020-07-13T03:51:08Z) - Jump Operator Planning: Goal-Conditioned Policy Ensembles and Zero-Shot
Transfer [71.44215606325005]
本稿では,シーケンシャルなサブゴールタスクの超指数空間における解を高速に計算するための,Jump-Operator Dynamic Programmingという新しいフレームワークを提案する。
このアプローチでは、時間的に拡張された行動として機能する、再利用可能な目標条件付き警察のアンサンブルを制御する。
すると、この部分空間上の目的関数のクラスを、解がグラウンド化に不変であるものとして特定し、最適ゼロショット移動をもたらす。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。