Fugu-MT 論文翻訳(概要): A Safety-Constrained Reinforcement Learning Framework for Reliable Wireless Autonomy

論文の概要: A Safety-Constrained Reinforcement Learning Framework for Reliable Wireless Autonomy

arxiv url: http://arxiv.org/abs/2602.13207v1
Date: Mon, 12 Jan 2026 02:02:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.541382
Title: A Safety-Constrained Reinforcement Learning Framework for Reliable Wireless Autonomy
Title（参考訳）: 信頼性の高い無線オートノミーのための安全制約付き強化学習フレームワーク
Authors: Abdikarim Mohamed Ibrahim, Rosdiadee Nordin,
Abstract要約: 本稿では,実証搬送制御とエンパワーメント予算(EB)適用を統合した,積極的な安全制約付きRLフレームワークを提案する。本手法は, 性能劣化を最小限に抑え, 証明可能な安全保証を実現する。その結果,将来の6Gネットワークにおける信頼性の高い無線自律性を実現するために,プロアクティブな安全制約付きRLの可能性を浮き彫りにした。
参考スコア（独自算出の注目度）: 1.5469452301122173
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Artificial intelligence (AI) and reinforcement learning (RL) have shown significant promise in wireless systems, enabling dynamic spectrum allocation, traffic management, and large-scale Internet of Things (IoT) coordination. However, their deployment in mission-critical applications introduces the risk of unsafe emergent behaviors, such as UAV collisions, denial-of-service events, or instability in vehicular networks. Existing safety mechanisms are predominantly reactive, relying on anomaly detection or fallback controllers that intervene only after unsafe actions occur, which cannot guarantee reliability in ultra-reliable low-latency communication (URLLC) settings. In this work, we propose a proactive safety-constrained RL framework that integrates proof-carrying control (PCC) with empowerment-budgeted (EB) enforcement. Each agent action is verified through lightweight mathematical certificates to ensure compliance with interference constraints, while empowerment budgets regulate the frequency of safety overrides to balance safety and autonomy. We implement this framework on a wireless uplink scheduling task using Proximal Policy Optimization (PPO). Simulation results demonstrate that the proposed PCC+EB controller eliminates unsafe transmissions while preserving system throughput and predictable autonomy. Compared with unconstrained and reactive baselines, our method achieves provable safety guarantees with minimal performance degradation. These results highlight the potential of proactive safety constrained RL to enable trustworthy wireless autonomy in future 6G networks.
Abstract（参考訳）: 人工知能(AI)と強化学習(RL)は、無線システムにおいて大きな可能性を示しており、ダイナミックスペクトル割り当て、トラフィック管理、大規模IoT(Internet of Things)調整を可能にしている。しかしながら、ミッションクリティカルなアプリケーションへの展開は、UAV衝突、サービス拒否イベント、車両ネットワークの不安定といった、安全でない緊急行動のリスクをもたらす。既存の安全メカニズムは、安全でないアクションが発生した後にのみ介入する異常検出やフォールバックコントローラに依存しており、超信頼性の低い低遅延通信(URLLC)設定での信頼性を保証することができない。本研究では,実証搬送制御(PCC)とエンパワーメント予算執行(EB)を統合した,積極的な安全制約付きRLフレームワークを提案する。各エージェントのアクションは、軽量な数学的証明書を通じて検証され、干渉制約の遵守が保証される一方、権限付与予算は安全性と自律性のバランスをとるために、安全上のオーバライドの頻度を規制する。本稿では,PPO(Proximal Policy Optimization)を用いた無線アップリンクスケジューリングタスクの実装を行う。シミュレーションの結果,提案したPCC+EBコントローラは,システムのスループットと予測可能な自律性を保ちながら,安全でない送信を排除していることがわかった。制約のない,リアクティブなベースラインと比較して,性能劣化を最小限に抑え,保証可能な安全保証を実現する。これらの結果は、将来の6Gネットワークにおいて、信頼できる無線自律性を実現するために、アクティブな安全制約付きRLの可能性を強調している。

関連論文リスト

BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。 BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文参考訳（メタデータ） (2026-02-23T18:19:46Z)
Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-12T22:03:35Z)
Multi-Agent-Driven Cognitive Secure Communications in Satellite-Terrestrial Networks [58.70163955407538]
悪意のある盗聴者は衛星地上ネットワーク(STN)を介して個人情報に深刻な脅威をもたらすリアルタイムセンシングによりスペクトルスケジューリングと保護を協調する複数のエージェントによって駆動される認知セキュア通信フレームワークを提案する。我々は、生成した対向ネットワークを利用して対向行列を生成し、学習支援電力制御を用いて、実及び対向信号のパワーを保護層に設定する。
論文参考訳（メタデータ） (2026-01-06T10:30:41Z)
Delay Independent Safe Control with Neural Networks: Positive Lur'e Certificates for Risk Aware Autonomy [0.5729426778193398]
本稿では,自律型学習可能制御システムに対するリスク認識型安全性保証手法を提案する。我々は、局所セクター境界を持つニューラルネットワーク(NN)コントローラをモデル化し、線形で遅延非依存の証明書を導出する正の構造の活用を行う。
論文参考訳（メタデータ） (2025-10-08T05:22:28Z)
UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文参考訳（メタデータ） (2025-10-02T16:43:33Z)
A novel agent with formal goal-reaching guarantees: an experimental study with a mobile robot [0.0]
強化学習 (Reinforcement Learning, RL) は, ロボット工学における多くの課題に対して有効かつ便利であることが示されている。この研究は、Crytic As Lyapunov Function(CALF)と呼ばれる新しい安全なモデルフリーRLエージェントを提示する。
論文参考訳（メタデータ） (2024-09-23T10:04:28Z)
Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文参考訳（メタデータ） (2022-12-14T03:11:25Z)
Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文参考訳（メタデータ） (2022-08-23T05:02:09Z)
Model-Based Safe Reinforcement Learning with Time-Varying State and Control Constraints: An Application to Intelligent Vehicles [13.40143623056186]
本稿では、時間変化状態と制御制約を持つ非線形システムの最適制御のための安全なRLアルゴリズムを提案する。多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2021-12-18T10:45:31Z)
Scalable Synthesis of Verified Controllers in Deep Reinforcement Learning [0.0]
高品質の安全シールドを合成できる自動検証パイプラインを提案します。私たちの重要な洞察は、事前に計算された安全シールドを使用して神経コントローラのトレーニングを制限し、神経コントローラから安全検証を分離することを含みます。実測的な高次元深部RLベンチマークによる実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2021-04-20T19:30:29Z)
Constraints Satisfiability Driven Reinforcement Learning for Autonomous Cyber Defense [7.321728608775741]
強化学習(RL)の防御政策の最適化と検証を目的とした新しいハイブリッド自律エージェントアーキテクチャを紹介します。我々は、安全かつ効果的な行動に向けてRL決定を操るために、制約検証(SMT(Satisfiability modulo theory))を用いる。シミュレーションCPS環境における提案手法の評価は,エージェントが最適方針を迅速に学習し,99%のケースで多種多様な攻撃戦略を破ることを示す。
論文参考訳（メタデータ） (2021-04-19T01:08:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。