論文の概要: QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management
- arxiv url: http://arxiv.org/abs/2512.15119v1
- Date: Wed, 17 Dec 2025 06:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.875107
- Title: QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management
- Title(参考訳): SAGIN対応UAVモビリティマネジメントにおける連系選択と軌道最適化のためのQoS対応階層的強化学習
- Authors: Jiayang Wan, Ke He, Yafei Wang, Fan Liu, Wenjin Wang, Shi Jin,
- Abstract要約: 宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
- 参考スコア(独自算出の注目度): 52.15690855486153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the significant variations in unmanned aerial vehicle (UAV) altitude and horizontal mobility, it becomes difficult for any single network to ensure continuous and reliable threedimensional coverage. Towards that end, the space-air-ground integrated network (SAGIN) has emerged as an essential architecture for enabling ubiquitous UAV connectivity. To address the pronounced disparities in coverage and signal characteristics across heterogeneous networks, this paper formulates UAV mobility management in SAGIN as a constrained multi-objective joint optimization problem. The formulation couples discrete link selection with continuous trajectory optimization. Building on this, we propose a two-level multi-agent hierarchical deep reinforcement learning (HDRL) framework that decomposes the problem into two alternately solvable subproblems. To map complex link selection decisions into a compact discrete action space, we conceive a double deep Q-network (DDQN) algorithm in the top-level, which achieves stable and high-quality policy learning through double Q-value estimation. To handle the continuous trajectory action space while satisfying quality of service (QoS) constraints, we integrate the maximum-entropy mechanism of the soft actor-critic (SAC) and employ a Lagrangian-based constrained SAC (CSAC) algorithm in the lower-level that dynamically adjusts the Lagrange multipliers to balance constraint satisfaction and policy optimization. Moreover, the proposed algorithm can be extended to multi-UAV scenarios under the centralized training and decentralized execution (CTDE) paradigm, which enables more generalizable policies. Simulation results demonstrate that the proposed scheme substantially outperforms existing benchmarks in throughput, link switching frequency and QoS satisfaction.
- Abstract(参考訳): 無人航空機(UAV)の高度と水平移動性に大きな変化があるため、単一のネットワークが連続的かつ信頼性の高い3次元カバレッジを確保することは困難になる。
その目的のために、宇宙空間統合ネットワーク(SAGIN)がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
SAGINにおけるUAVモビリティ管理を制約付き多目的共同最適化問題として定式化する。
定式化は、離散リンク選択と連続軌道最適化を結合する。
そこで本研究では,2段階の階層型階層型深層強化学習(HDRL)フレームワークを提案し,この問題を2つの代替解可能なサブプロブレムに分解する。
複雑なリンク選択決定をコンパクトな離散的な行動空間にマッピングするために、二重Q-値推定による安定かつ高品質なポリシー学習を実現する二重Q-network (DDQN) アルゴリズムをトップレベルに提案する。
サービス品質(QoS)の制約を満たしつつ連続的な軌道運動空間を扱うために,ソフトアクター・クリティック(SAC)の最大エントロピー機構を統合し,ラグランジアンベースの制約付きSAC(CSAC)アルゴリズムを用いてラグランジュ乗算器を動的に調整し,制約満足度とポリシー最適化のバランスをとる。
さらに、提案アルゴリズムは、より一般化可能なポリシーを実現するために、集中訓練・分散実行(CTDE)パラダイムの下で、マルチUAVシナリオに拡張することができる。
シミュレーションの結果,提案手法は既存のベンチマークのスループット,リンク切替周波数,QoS満足度を大幅に上回ることがわかった。
関連論文リスト
- Backscatter Device-aided Integrated Sensing and Communication: A Pareto Optimization Framework [59.30060797118097]
統合センシング・通信(ISAC)システムは、密集した都市非視線シナリオにおいて大きな性能劣化に遭遇する可能性がある。
本稿では,自然環境に分散した受動的BDを利用した後方散乱近似(BD)支援ISACシステムを提案する。
論文 参考訳(メタデータ) (2025-07-12T17:11:06Z) - Hierarchical Task Offloading for UAV-Assisted Vehicular Edge Computing via Deep Reinforcement Learning [11.695622067301128]
部分オフロードに基づく2層UAV支援エッジコンピューティングアーキテクチャを提案する。
提案アーキテクチャは異種資源の効率的な統合と調整を可能にする。
提案手法は,タスク完了率,システム効率,収束速度において,いくつかのベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2025-07-08T07:10:52Z) - Generative AI-Enhanced Cooperative MEC of UAVs and Ground Stations for Unmanned Surface Vehicles [36.3157805511305]
無人地上機(USV)は低コストで柔軟な航空サービスを提供している。
地上局(GS)は、複雑なシナリオでUSVを支援するために協力する強力な支援を提供することができる。
本稿では,UAVとGSをベースとした堅牢なマルチアクセスエッジコンピューティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T04:42:59Z) - CVaR-Based Variational Quantum Optimization for User Association in Handoff-Aware Vehicular Networks [23.140655547353994]
本稿では、車両ネットワーク(VNet)における一般化代入問題(GAP)に対処するための、CVaRに基づく変動量子固有解法(VQE)フレームワークを提案する。
提案手法は, 目的と制約固有のペナルティのバランスを保ち, 解の質と安定性を向上させるために, 調整されたコスト関数を統合するハイブリッド量子古典構造を利用する。
本稿では,この枠組みを,ディープニューラルネットワーク(DNN)アプローチと比較して23.5%改善したVNetのユーザ連想問題に適用する。
論文 参考訳(メタデータ) (2025-01-14T20:21:06Z) - Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。
本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:17:33Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - Deep-Reinforcement-Learning-Based AoI-Aware Resource Allocation for RIS-Aided IoV Networks [43.443526528832145]
車両間通信(V2X)方式を考慮したRIS支援車両インターネット(IoV)を提案する。
車両間リンク(V2I)のタイムラインと車両間リンク(V2V)の安定性を改善するため,情報量(AoI)モデルとペイロード伝達確率モデルを導入する。
論文 参考訳(メタデータ) (2024-06-17T06:16:07Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Goal Kernel Planning: Linearly-Solvable Non-Markovian Policies for Logical Tasks with Goal-Conditioned Options [54.40780660868349]
我々はLinearly-Solvable Goal Kernel Dynamic Programming (LS-GKDP)と呼ばれる合成フレームワークを導入する。
LS-GKDPは、Linearly-Solvable Markov Decision Process (LMDP)形式とOptions Framework of Reinforcement Learningを組み合わせたものである。
本稿では,目標カーネルを持つLMDPが,タスク接地によって定義された低次元部分空間におけるメタポリティシの効率的な最適化を実現する方法を示す。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。