論文の概要: Safe Deep Reinforcement Learning for Resource Allocation with Peak Age of Information Violation Guarantees
- arxiv url: http://arxiv.org/abs/2507.08653v1
- Date: Fri, 11 Jul 2025 14:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.394111
- Title: Safe Deep Reinforcement Learning for Resource Allocation with Peak Age of Information Violation Guarantees
- Title(参考訳): 情報監視のピーク年齢を考慮した資源配分のための安全な深層強化学習
- Authors: Berire Gunes Reyhan, Sinem Coleri,
- Abstract要約: 本稿では,WNCS(Ultra-Reliable Wireless Networked Control Systems)のための新しい最適化理論に基づく安全な深部強化学習(DRL)フレームワークを提案する。
このフレームワークは、ピークエイジ・オブ・インフォメーション(PAoI)違反の確率、送信電力、有限ブロック長系におけるスケジューリング可能性など、重要な制約下での消費電力を最小化する。
提案したフレームワークはルールベースおよび他の最適化理論に基づくDRLベンチマークよりも優れており、より高速な収束、より高い報酬、より高い安定性を実現している。
- 参考スコア(独自算出の注目度): 10.177917426690701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Wireless Networked Control Systems (WNCSs), control and communication systems must be co-designed due to their strong interdependence. This paper presents a novel optimization theory-based safe deep reinforcement learning (DRL) framework for ultra-reliable WNCSs, ensuring constraint satisfaction while optimizing performance, for the first time in the literature. The approach minimizes power consumption under key constraints, including Peak Age of Information (PAoI) violation probability, transmit power, and schedulability in the finite blocklength regime. PAoI violation probability is uniquely derived by combining stochastic maximum allowable transfer interval (MATI) and maximum allowable packet delay (MAD) constraints in a multi-sensor network. The framework consists of two stages: optimization theory and safe DRL. The first stage derives optimality conditions to establish mathematical relationships among variables, simplifying and decomposing the problem. The second stage employs a safe DRL model where a teacher-student framework guides the DRL agent (student). The control mechanism (teacher) evaluates compliance with system constraints and suggests the nearest feasible action when needed. Extensive simulations show that the proposed framework outperforms rule-based and other optimization theory based DRL benchmarks, achieving faster convergence, higher rewards, and greater stability.
- Abstract(参考訳): 無線ネットワーク制御システム(WNCS)では、制御系と通信系は相互依存が強いため、共同設計されなければならない。
本稿では,超信頼性WNCSのための新しい最適化理論に基づく安全な深部強化学習(DRL)フレームワークを提案する。
この手法は、ピークエイジ・オブ・インフォメーション(PAoI)違反の確率、送信電力、有限ブロック長系におけるスケジューリング可能性など、重要な制約下での消費電力を最小化する。
PAoI違反確率は,マルチセンサネットワークにおける確率的最大許容パケット転送間隔 (MATI) と最大許容パケット遅延 (MAD) の制約を組み合わせたものである。
このフレームワークは最適化理論と安全なDRLという2つの段階で構成されている。
第1段階は変数間の数学的関係を確立するための最適条件を導出し、問題を単純化し分解する。
第2段階では安全なDRLモデルを採用しており、教師-学生フレームワークがDRLエージェント(学生)を誘導する。
制御機構(教師)は、システム制約の遵守を評価し、必要であれば最も近い実行可能なアクションを提案する。
大規模なシミュレーションにより、提案フレームワークはルールベースおよび他の最適化理論に基づくDRLベンチマークよりも優れ、より高速な収束、より高い報酬、より高い安定性を実現していることが示された。
関連論文リスト
- A Hybrid Reinforcement Learning Framework for Hard Latency Constrained Resource Scheduling [7.586600116278698]
ハードレイテンシ制約付きリソーススケジューリングのための新しい強化学習フレームワーク(HRL-RSHLC)を提案する。
HRL-RSHLCは,ベースラインアルゴリズムと比較して収束速度が速く,優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2025-03-30T09:39:13Z) - Digital Twin-Assisted Federated Learning with Blockchain in Multi-tier Computing Systems [67.14406100332671]
産業用 4.0 システムでは、リソース制約のあるエッジデバイスが頻繁にデータ通信を行う。
本稿では,デジタルツイン (DT) とフェデレーション付きデジタルツイン (FL) 方式を提案する。
提案手法の有効性を数値解析により検証した。
論文 参考訳(メタデータ) (2024-11-04T17:48:02Z) - Event-Triggered Reinforcement Learning Based Joint Resource Allocation for Ultra-Reliable Low-Latency V2X Communications [10.914558012458425]
6G対応車載ネットワークは、安全クリティカルな情報をタイムリーに提供するための低遅延通信(URLLC)を確保するという課題に直面している。
車両間通信システム(V2X)の従来のリソース割り当てスキームは、従来の復号法に基づくアルゴリズムに依存している。
論文 参考訳(メタデータ) (2024-07-18T23:55:07Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Self-Supervised Learning for Large-Scale Preventive Security Constrained DC Optimal Power Flow [20.078717680640214]
SCOPF(Security-Constrained Optimal Power Flow)は、電力グリッドの安定性において重要な役割を果たすが、システムが成長するにつれてますます複雑になる。
本稿では,大規模SCOPF問題に対する準最適解を生成するための,自己教師付きエンドツーエンドのPDL-SCOPFについて紹介する。
論文 参考訳(メタデータ) (2023-11-29T20:36:35Z) - Optimization Theory Based Deep Reinforcement Learning for Resource
Allocation in Ultra-Reliable Wireless Networked Control Systems [10.177917426690701]
本稿では,制御系と通信系の共同設計のための,新しい最適化理論に基づく深層強化学習(DRL)フレームワークを提案する。
通信システムのスケジュール性及びレート制約を満たすとともに、最小消費電力の目標とする。
論文 参考訳(メタデータ) (2023-11-28T15:49:29Z) - Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set [6.94348936509225]
本稿では, RMPCとRL RLの併用による非線形システムの安全フィルタの合成について述べる。
本稿では,ロバストリーチ問題に対する政策アプローチを提案し,その複雑性を確立する。
論文 参考訳(メタデータ) (2023-11-12T08:11:28Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。