論文の概要: Resilient UAV Trajectory Planning via Few-Shot Meta-Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.01268v1
- Date: Mon, 03 Feb 2025 11:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:17.410815
- Title: Resilient UAV Trajectory Planning via Few-Shot Meta-Offline Reinforcement Learning
- Title(参考訳): Few-Shot Meta-Offline Reinforcement LearningによるユビキタスUAV軌道計画
- Authors: Eslam Eldeeb, Hirley Alves,
- Abstract要約: 本研究は、オフラインRLとモデルに依存しないメタ学習を組み合わせた、新しい、レジリエントで、少数ショットのメタオフラインRLアルゴリズムを提案する。
提案する数ショットメタオフラインRLアルゴリズムは,ベースライン方式よりも高速に収束することを示す。
オフラインデータセットを使用して最適な共同AoIと送信パワーを達成できる唯一のアルゴリズムである。
- 参考スコア(独自算出の注目度): 5.771885923067511
- License:
- Abstract: Reinforcement learning (RL) has been a promising essence in future 5G-beyond and 6G systems. Its main advantage lies in its robust model-free decision-making in complex and large-dimension wireless environments. However, most existing RL frameworks rely on online interaction with the environment, which might not be feasible due to safety and cost concerns. Another problem with online RL is the lack of scalability of the designed algorithm with dynamic or new environments. This work proposes a novel, resilient, few-shot meta-offline RL algorithm combining offline RL using conservative Q-learning (CQL) and meta-learning using model-agnostic meta-learning (MAML). The proposed algorithm can train RL models using static offline datasets without any online interaction with the environments. In addition, with the aid of MAML, the proposed model can be scaled up to new unseen environments. We showcase the proposed algorithm for optimizing an unmanned aerial vehicle (UAV) 's trajectory and scheduling policy to minimize the age-of-information (AoI) and transmission power of limited-power devices. Numerical results show that the proposed few-shot meta-offline RL algorithm converges faster than baseline schemes, such as deep Q-networks and CQL. In addition, it is the only algorithm that can achieve optimal joint AoI and transmission power using an offline dataset with few shots of data points and is resilient to network failures due to unprecedented environmental changes.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、将来の5G-Beyondおよび6Gシステムにおいて有望な要素である。
その主な利点は、複雑で大規模なワイヤレス環境における堅牢なモデルフリーな意思決定である。
しかし、既存のほとんどのRLフレームワークは環境とのオンラインインタラクションに依存しており、安全とコストの懸念のために実現できないかもしれない。
オンラインRLのもう1つの問題は、動的または新しい環境で設計されたアルゴリズムのスケーラビリティの欠如である。
本研究は、保守的Qラーニング(CQL)とモデル非依存メタラーニング(MAML)を用いたメタラーニングを用いたオフラインRLを組み合わせた、新しい、レジリエントで、少数ショットのメタオフラインRLアルゴリズムを提案する。
提案アルゴリズムは、静的なオフラインデータセットを使用してRLモデルを、環境とのオンラインインタラクションなしで訓練することができる。
さらに、MAMLの助けを借りて、提案したモデルは、新しい目に見えない環境にスケールできる。
本稿では,無人航空機(UAV)の軌道とスケジューリングポリシーを最適化し,情報伝達の年齢(AoI)を最小化するためのアルゴリズムを提案する。
数値計算により,提案手法はQ-networksやCQLといったベースライン方式よりも高速に収束することが示された。
さらに、データポイントの少ないオフラインデータセットを使用して、最適な共同AoIと送信パワーを達成できる唯一のアルゴリズムであり、前例のない環境変化によるネットワーク障害に対する耐性がある。
関連論文リスト
- Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Offline Reinforcement Learning and Sequence Modeling for Downlink Link Adaptation [3.687363450234871]
リンク適応(LA)は、現代の無線通信システムにおいて欠かせない機能である。
LAは、通信リンクの伝送速度を時間変化および周波数変化の無線リンク条件に合わせるように動的に調整する。
近年の研究では、より一般的なルールベースのアルゴリズムの代替として、オンライン強化学習アプローチが導入されている。
論文 参考訳(メタデータ) (2024-10-30T14:01:31Z) - Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルに基づく強化学習(MBRL)は、データ駆動による意思決定と制御のための強力なアプローチである。
オフラインデータセットで同一の動作をする様々なMDPが存在する可能性があるため、真のMDPに関する不確実性に対処することは困難である。
本研究では,BAMDPを連続状態および動作空間で解くことのできるベイズ適応モンテカルロ計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:36:43Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Model-Based Offline Planning with Trajectory Pruning [15.841609263723575]
オフライン強化学習(RL)は、環境相互作用のない事前コンパイルデータセットを使用した学習ポリシーを可能にする。
オフライン学習の制約と高性能計画の間のジレンマに取り組む新しい軽量モデルベースのオフライン計画フレームワークであるMOPPを提案します。
実験の結果,MOPPは既存のモデルベースオフラインプランニングやRLアプローチと比較して,競争性能が向上していることがわかった。
論文 参考訳(メタデータ) (2021-05-16T05:00:54Z) - Offline Meta-Reinforcement Learning with Advantage Weighting [125.21298190780259]
本稿では,オフラインメタ強化学習(オフラインメタRL)問題設定を導入し,この設定でよく機能するアルゴリズムを提案する。
オフラインメタRLは、修正済みデータの大規模なバッチ上でモデルを事前学習する、広く成功した教師付き学習戦略に類似している。
本稿では,メタトレーニングの内ループと外ループの両方に対して,シンプルかつ教師付き回帰目標を用いた最適化に基づくメタ学習アルゴリズムである,アドバンテージ重み付きメタアクタ批判(MACAW)を提案する。
論文 参考訳(メタデータ) (2020-08-13T17:57:14Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。