論文の概要: Resource-Constrained Station-Keeping for Helium Balloons using
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.01173v1
- Date: Thu, 2 Mar 2023 11:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:46:40.211228
- Title: Resource-Constrained Station-Keeping for Helium Balloons using
Reinforcement Learning
- Title(参考訳): 強化学習を用いたヘリウムバルーンの資源拘束型ステーションキーピング
- Authors: Jack Saunders, Lo\"ic Prenevost, \"Ozg\"ur \c{S}im\c{s}ek, Alan
Hunter, and Wenbin Li
- Abstract要約: 高高度気球は、生態調査、大気モニタリング、通信中継に有用であることが証明されている。
重量と電力の制約のため、成層圏を航行するためには代替的な推進モードを調査する必要がある。
気球を固定位置で維持する制御スキームとして 強化学習が提案されている
- 参考スコア(独自算出の注目度): 2.533750838217291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High altitude balloons have proved useful for ecological aerial surveys,
atmospheric monitoring, and communication relays. However, due to weight and
power constraints, there is a need to investigate alternate modes of propulsion
to navigate in the stratosphere. Very recently, reinforcement learning has been
proposed as a control scheme to maintain the balloon in the region of a fixed
location, facilitated through diverse opposing wind-fields at different
altitudes. Although air-pump based station keeping has been explored, there is
no research on the control problem for venting and ballasting actuated
balloons, which is commonly used as a low-cost alternative. We show how
reinforcement learning can be used for this type of balloon. Specifically, we
use the soft actor-critic algorithm, which on average is able to station-keep
within 50\;km for 25\% of the flight, consistent with state-of-the-art.
Furthermore, we show that the proposed controller effectively minimises the
consumption of resources, thereby supporting long duration flights. We frame
the controller as a continuous control reinforcement learning problem, which
allows for a more diverse range of trajectories, as opposed to current
state-of-the-art work, which uses discrete action spaces. Furthermore, through
continuous control, we can make use of larger ascent rates which are not
possible using air-pumps. The desired ascent-rate is decoupled into desired
altitude and time-factor to provide a more transparent policy, compared to
low-level control commands used in previous works. Finally, by applying the
equations of motion, we establish appropriate thresholds for venting and
ballasting to prevent the agent from exploiting the environment. More
specifically, we ensure actions are physically feasible by enforcing
constraints on venting and ballasting.
- Abstract(参考訳): 高高度気球は、生態調査、大気モニタリング、通信中継に有用であることが証明されている。
しかし、重量と電力の制約により、成層圏を航行するためには代替的な推進モードを検討する必要がある。
最近の強化学習は、異なる高度の様々な対向風場を通じて促進される固定された位置の領域で気球を維持するための制御スキームとして提案されている。
空気ポンプ式駅の維持は検討されているが、安価で代替手段として一般的に用いられる気流式およびバラスト式作動気球の制御に関する研究は行われていない。
このようなバルーンに対して強化学習が有効であることを示す。
具体的にはsoft actor-criticアルゴリズムを使用しており、平均して50\;km以内で飛行の25\%をステーションキープすることができる。
また,提案するコントローラは資源の消費を効果的に最小化し,長時間の飛行を支援する。
我々はコントローラを連続的な制御強化学習問題とみなし、離散的なアクション空間を使用する現在の最先端の作業とは対照的に、より多様な軌跡を実現する。
さらに, 連続制御により, 空気ポンプでは不可能な上昇速度を増大させることができる。
所望の上昇速度は、以前の作業で使用されていた低レベル制御コマンドと比較して、より透明なポリシーを提供するために、所望の高度と時間要素に分離される。
最後に, 運動方程式を適用することで, 排ガスとバラストの適切なしきい値を確立し, エージェントが環境を悪用することを防止する。
具体的には、換気と発泡に関する制約を課すことによって、アクションが物理的に実現可能であることを保証します。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Spectrum Breathing: Protecting Over-the-Air Federated Learning Against Interference [73.63024765499719]
モバイルネットワークは、近隣のセルやジャマーからの干渉によって損なわれる可能性がある。
本稿では,帯域幅拡大を伴わない干渉を抑制するために,カスケード段階のプルーニングとスペクトル拡散を行うスペクトルブリーチングを提案する。
呼吸深度によって制御された勾配プルーニングと干渉誘発誤差の間には,性能的トレードオフが認められた。
論文 参考訳(メタデータ) (2023-05-10T07:05:43Z) - A deep reinforcement learning approach to assess the low-altitude
airspace capacity for urban air mobility [0.0]
都市空力は、低高度空域を利用して高速で安全な旅行手段を提供することを目的としている。
当局は現在も、都市空輸に適用される新しい飛行規則の見直しに取り組んでいる。
深い強化学習アプローチと深い決定論的政策勾配アルゴリズムを用いて,自律型UAV経路計画フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-23T23:38:05Z) - Neural-Fly Enables Rapid Learning for Agile Flight in Strong Winds [96.74836678572582]
本稿では,ディープラーニングを通じて事前学習した表現を組み込むことで,オンラインでの迅速な適応を可能にする学習ベースのアプローチを提案する。
Neural-Flyは、最先端の非線形かつ適応的なコントローラよりもかなり少ないトラッキングエラーで正確な飛行制御を実現する。
論文 参考訳(メタデータ) (2022-05-13T21:55:28Z) - Learning Pneumatic Non-Prehensile Manipulation with a Mobile Blower [30.032847855193864]
管制官は 常に 行動の予期せぬ変化に 適応しなければならない。
本稿では,空間行動マップフレームワークのマルチ周波数バージョンを紹介する。
これにより、高レベルの計画と低レベルのクローズドループ制御を効果的に組み合わせたビジョンベースのポリシーの効率的な学習が可能になる。
論文 参考訳(メタデータ) (2022-04-05T17:55:58Z) - Optimizing Airborne Wind Energy with Reinforcement Learning [0.0]
強化学習(Reinforcement Learning)は、システムの事前の知識を必要とせずに、観察と利益ある行動とを関連付ける技術である。
シミュレーション環境において、強化学習は、遠距離で車両を牽引できるように、カイトを効率的に制御する方法を見出した。
論文 参考訳(メタデータ) (2022-03-27T10:28:16Z) - Machine Learning for Mechanical Ventilation Control (Extended Abstract) [52.65490904484772]
機械的換気はICUで最も広く用いられている治療法の1つである。
人工呼吸器は、所定の気道圧の軌跡に従って患者の肺に空気を注入しなければならない。
データ駆動型アプローチは、人工呼吸器から収集したデータに基づいて訓練されたシミュレーターをトレーニングすることで、侵襲的人工呼吸器を制御することを学ぶ。
この方法は、一般的な強化学習アルゴリズムより優れており、PIDよりも正確で堅牢な物理的換気装置も制御できる。
論文 参考訳(メタデータ) (2021-11-19T20:54:41Z) - Obstacle Avoidance for UAS in Continuous Action Space Using Deep
Reinforcement Learning [9.891207216312937]
小型無人航空機の障害物回避は将来の都市空輸の安全に不可欠である。
本稿では, PPO(Proximal Policy Optimization)に基づく深層強化学習アルゴリズムを提案する。
その結果,提案モデルが正確かつ堅牢なガイダンスを提供し,99%以上の成功率で競合を解消できることが示唆された。
論文 参考訳(メタデータ) (2021-11-13T04:44:53Z) - An Autonomous Free Airspace En-route Controller using Deep Reinforcement
Learning Techniques [24.59017394648942]
航空機の任意の数の航空機を3次元非構造空域に誘導する航空交通制御モデルが提示される。
その結果,航空交通管制モデルが現実的な交通密度で良好に機能していることが示唆された。
潜在的な衝突の100%を回避し、潜在的な衝突の89.8%を防止して、空域を管理することができる。
論文 参考訳(メタデータ) (2020-07-03T10:37:25Z) - Data Freshness and Energy-Efficient UAV Navigation Optimization: A Deep
Reinforcement Learning Approach [88.45509934702913]
我々は、移動基地局(BS)が配備される複数の無人航空機(UAV)のナビゲーションポリシーを設計する。
我々は、地上BSにおけるデータの鮮度を確保するために、エネルギーや情報年齢(AoI)の制約などの異なる文脈情報を組み込んだ。
提案したトレーニングモデルを適用することで、UAV-BSに対する効果的なリアルタイム軌道ポリシーは、時間とともに観測可能なネットワーク状態をキャプチャする。
論文 参考訳(メタデータ) (2020-02-21T07:29:15Z) - Data-driven control of micro-climate in buildings: an event-triggered
reinforcement learning approach [56.22460188003505]
半マルコフ決定過程に基づく微小気候制御問題を定式化する。
建物内の微小気候のイベントトリガー制御のための2つの学習アルゴリズムを提案する。
スマートなサーモスタットを設計することで,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-01-28T18:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。