論文の概要: SafeSlice: Enabling SLA-Compliant O-RAN Slicing via Safe Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.12753v1
- Date: Mon, 17 Mar 2025 02:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:32:58.993454
- Title: SafeSlice: Enabling SLA-Compliant O-RAN Slicing via Safe Deep Reinforcement Learning
- Title(参考訳): SafeSlice: セーフディープ強化学習によるSLA準拠のO-RANスライシングの実現
- Authors: Ahmad M. Nagib, Hatem Abou-Zeid, Hossam S. Hassanein,
- Abstract要約: 深部強化学習(DRL)に基づくスライシングポリシは、オープン無線アクセスネットワーク(O-RAN)などの物理システムにおいて課題に直面している。
これらのポリシーは、サービスレベル合意(SLA)の遵守を保証するための安全保証を欠いていることが多い。
我々は,O-RANスライスにおける累積(軌道方向)および瞬時(状態方向)の遅延制約に対処するSafeSliceを提案する。
- 参考スコア(独自算出の注目度): 20.344810727033327
- License:
- Abstract: Deep reinforcement learning (DRL)-based slicing policies have shown significant success in simulated environments but face challenges in physical systems such as open radio access networks (O-RANs) due to simulation-to-reality gaps. These policies often lack safety guarantees to ensure compliance with service level agreements (SLAs), such as the strict latency requirements of immersive applications. As a result, a deployed DRL slicing agent may make resource allocation (RA) decisions that degrade system performance, particularly in previously unseen scenarios. Real-world immersive applications require maintaining SLA constraints throughout deployment to prevent risky DRL exploration. In this paper, we propose SafeSlice to address both the cumulative (trajectory-wise) and instantaneous (state-wise) latency constraints of O-RAN slices. We incorporate the cumulative constraints by designing a sigmoid-based risk-sensitive reward function that reflects the slices' latency requirements. Moreover, we build a supervised learning cost model as part of a safety layer that projects the slicing agent's RA actions to the nearest safe actions, fulfilling instantaneous constraints. We conduct an exhaustive experiment that supports multiple services, including real virtual reality (VR) gaming traffic, to investigate the performance of SafeSlice under extreme and changing deployment conditions. SafeSlice achieves reductions of up to 83.23% in average cumulative latency, 93.24% in instantaneous latency violations, and 22.13% in resource consumption compared to the baselines. The results also indicate SafeSlice's robustness to changing the threshold configurations of latency constraints, a vital deployment scenario that will be realized by the O-RAN paradigm to empower mobile network operators (MNOs).
- Abstract(参考訳): 深部強化学習(DRL)に基づくスライシング政策は、シミュレーション環境において大きな成功を収めているが、シミュレーションと現実のギャップにより、オープン無線アクセスネットワーク(O-RAN)のような物理システムでは課題に直面している。
これらのポリシーは、没入型アプリケーションの厳格なレイテンシ要件など、サービスレベルの合意(SLA)の遵守を保証するための安全保証を欠いていることが多い。
結果として、デプロイされたDRLスライシングエージェントは、特に未確認のシナリオにおいて、システムパフォーマンスを低下させるリソース割り当て(RA)決定を行うことができる。
現実世界の没入型アプリケーションは、リスクの高いDRL探索を防ぐために、デプロイメント全体を通してSLAの制約を維持する必要がある。
本稿では,O-RANスライスにおける累積(トラジェクティブワイド)と即時(状態ワイド)の遅延制約に対処するSafeSliceを提案する。
我々は,スライスのレイテンシ要求を反映したシグモノイドに基づくリスク感応報酬関数を設計することにより,累積制約を組み込む。
さらに,スライシングエージェントのRAアクションを最も近い安全なアクションに投射し,瞬時に制約を満たす安全レイヤの一部として,教師付き学習コストモデルを構築した。
我々は,現実のバーチャルリアリティ(VR)ゲームトラフィックを含む複数のサービスをサポートする徹底的な実験を行い,極端かつ異なる展開条件下でのSafeSliceの性能について検討する。
SafeSliceは平均累積レイテンシで83.23%、即時遅延違反で93.24%、リソース消費で22.13%の削減を実現している。
また、SafeSliceのレイテンシ制約のしきい値設定変更に対する堅牢性も示している。これはモバイルネットワークオペレータ(MNO)を強化するためのO-RANパラダイムによって実現される重要なデプロイメントシナリオである。
関連論文リスト
- Reward-Safety Balance in Offline Safe RL via Diffusion Regularization [16.5825143820431]
制約付き強化学習(RL)は、安全制約下での高性能な政策を求める。
拡散規則化制約付きオフライン強化学習(DRCORL)を提案する。
DRCORLは、まず拡散モデルを使用して、オフラインデータから行動ポリシーをキャプチャし、その後、効率的な推論を可能にするために単純化されたポリシーを抽出する。
論文 参考訳(メタデータ) (2025-02-18T00:00:03Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion
Model [23.93820548551533]
FISOR(FeasIbility-guided Safe Offline RL)を提案する。
FISORでは、変換された最適化問題に対する最適ポリシーは、重み付けされた行動クローニングの特別な形態で導出することができる。
FISORは、ほとんどのタスクにおいて最上位のリターンを達成しつつ、すべてのタスクにおいて安全満足を保証できる唯一の方法であることを示す。
論文 参考訳(メタデータ) (2024-01-19T14:05:09Z) - How Does Forecasting Affect the Convergence of DRL Techniques in O-RAN
Slicing? [20.344810727033327]
本稿では,DRLの収束性を高めるため,新しい予測支援型DRL手法とそのO-RAN実運用ワークフローを提案する。
提案手法では, 平均初期報酬値, 収束率, 収束シナリオ数において最大22.8%, 86.3%, 300%の改善が見られた。
論文 参考訳(メタデータ) (2023-09-01T14:30:04Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。