論文の概要: A Policy-Driven DRL Framework for System-Level Tradeoff Control in NR-U/Wi-Fi Coexistence
- arxiv url: http://arxiv.org/abs/2605.00457v1
- Date: Fri, 01 May 2026 06:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.882667
- Title: A Policy-Driven DRL Framework for System-Level Tradeoff Control in NR-U/Wi-Fi Coexistence
- Title(参考訳): NR-U/Wi-Fi共存におけるシステムレベルトレードオフ制御のためのポリシー駆動型DRLフレームワーク
- Authors: Po-Heng Chou, Yi-Fang Yu, Shou-Yu Chen, Chiapin Wang,
- Abstract要約: 非ライセンススペクトルにおけるNR-UとWi-Fiの共存は、システムレベルのリソース調整問題をもたらす。
適応型TXOP制御のための政策駆動型深層強化学習フレームワークを提案する。
重要な貢献は、報酬設計によるポリシーレイヤの導入であり、システムレベルのトレードオフを明示的に制御できる。
- 参考スコア(独自算出の注目度): 0.2994333558834796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The coexistence of NR-U and Wi-Fi in unlicensed spectrum introduces a system-level resource coordination problem, where heterogeneous channel access mechanisms lead to a significant imbalance in spectrum utilization and degraded Wi-Fi performance. To address this challenge, we propose a policy-driven deep reinforcement learning (DRL) framework for adaptive TXOP control, in which the coexistence process is formulated as a Markov decision process (MDP) and a deep Q-network (DQN) learns control policies through online interaction. A key contribution is the introduction of a policy layer via reward design, enabling explicit control of system-level tradeoffs among fairness, throughput, and quality of service (QoS). Three policies, namely absolute fairness, moderate fairness, and utility-based fairness, are developed to achieve different operating points. Simulation results show that the proposed framework achieves a Jain fairness index above 0.9 under strict fairness control. Compared to absolute fairness, moderate fairness improves aggregate throughput by 68.22%, while the utility-based policy further enhances utility by 177.6%. These results demonstrate that policy-driven control provides a flexible and effective solution for managing tradeoffs in heterogeneous coexistence networks.
- Abstract(参考訳): 非ライセンススペクトルにおけるNR-UとWi-Fiの共存は、異種チャネルアクセス機構がスペクトル利用と劣化したWi-Fi性能に大きな不均衡をもたらすシステムレベルの資源調整問題をもたらす。
この課題に対処するために、適応的TXOP制御のためのポリシー駆動型深層強化学習(DRL)フレームワークを提案し、その共存プロセスをマルコフ決定プロセス(MDP)として定式化し、オンラインインタラクションを通じて深層Qネットワーク(DQN)が制御ポリシーを学習する。
重要な貢献は、報酬設計によるポリシーレイヤの導入であり、公正さ、スループット、サービス品質(QoS)の間のシステムレベルのトレードオフを明示的に制御できる。
3つのポリシー、すなわち絶対公正性、適度公正性、ユーティリティベースの公正性は、異なる操作ポイントを達成するために開発されている。
シミュレーションの結果, 厳密な公正度制御の下で, 0.9以上のジャイナフェアネス指数が得られた。
絶対公平性に比べ、適度な公正性は総スループットを68.22%向上させ、ユーティリティベースのポリシーは実用性をさらに177.6%向上させた。
これらの結果は、ポリシー駆動型制御が、異種共存ネットワークにおけるトレードオフを管理するための柔軟で効果的なソリューションを提供することを示す。
関連論文リスト
- QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management [52.15690855486153]
宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
論文 参考訳(メタデータ) (2025-12-17T06:22:46Z) - A General Incentives-Based Framework for Fairness in Multi-agent Resource Allocation [4.930376365020355]
GIFF(General Incentives-based Framework for Fairness)を紹介する。
GIFFは、標準値関数から公平な意思決定を推測する、公平なマルチエージェントリソース割り当てのための新しいアプローチである。
論文 参考訳(メタデータ) (2025-10-30T17:37:51Z) - Collaborative Channel Access and Transmission for NR Sidelink and Wi-Fi Coexistence over Unlicensed Spectrum [7.098402998630272]
5G-Advancedは、データレートを上げるために、ライセンスなしスペクトル(SL-U)上のサイドリンク通信を導入した。
ライセンスされていないスペクトルにおけるSL-Uの主な課題は、Wi-Fiのような既存のシステムと公平に共存することである。
論文 参考訳(メタデータ) (2025-01-20T03:37:51Z) - Augmented Lagrangian-Based Safe Reinforcement Learning Approach for Distribution System Volt/VAR Control [1.1059341532498634]
本稿では,Volt-VAR制御問題をマルコフ決定過程(CMDP)として定式化する。
本稿では, CMDP を解くために, 安全な非政治強化学習(RL)手法を提案する。
オフライントレーニングとオンライン実行には2段階の戦略が採用されているため、正確な分散システムモデルはもはや不要である。
論文 参考訳(メタデータ) (2024-10-19T19:45:09Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Intervention-Assisted Policy Gradient Methods for Online Stochastic Queuing Network Optimization: Technical Report [1.4201040196058878]
本研究は,従来の深層強化学習法に代わるオンライン深層強化学習制御(ODRLC)を提案する。
ODRLCはオンラインインタラクションを使用してキューイングネットワーク(SQN)の最適制御ポリシーを学習する
本稿では、ネットワークの安定性を確保するために、これらの介入支援ポリシーを設計する手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T14:02:04Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Attention-based Open RAN Slice Management using Deep Reinforcement
Learning [6.177038245239758]
本稿では,O-RAN分散化モジュールと分散エージェント協調を利用した,革新的アテンションベースディープRL(ADRL)技術を提案する。
シミュレーションの結果,他のDRLベースライン法と比較してネットワーク性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-06-15T20:37:19Z) - Learning Resilient Radio Resource Management Policies with Graph Neural
Networks [124.89036526192268]
我々は、ユーザ当たりの最小容量制約でレジリエントな無線リソース管理問題を定式化する。
有限個のパラメータ集合を用いてユーザ選択と電力制御ポリシーをパラメータ化できることを示す。
このような適応により,提案手法は平均レートと5番目のパーセンタイルレートとの良好なトレードオフを実現する。
論文 参考訳(メタデータ) (2022-03-07T19:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。