Fugu-MT 論文翻訳(概要): A Safe Reinforcement Learning Architecture for Antenna Tilt Optimisation

論文の概要: A Safe Reinforcement Learning Architecture for Antenna Tilt Optimisation

arxiv url: http://arxiv.org/abs/2012.01296v2
Date: Thu, 8 Apr 2021 08:59:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-25 03:51:17.587732
Title: A Safe Reinforcement Learning Architecture for Antenna Tilt Optimisation
Title（参考訳）: アンテナ傾き最適化のための安全強化学習アーキテクチャ
Authors: Erik Aumayr, Saman Feghhi, Filippo Vannella, Ezeddin Al Hakim, Grigorios Iakovidis
Abstract要約: 環境との安全な相互作用は、実世界の問題に適用する場合、強化学習(RL)の最も難しい側面の1つである。遠隔電気ティルト最適化(RET)は、基地局のアンテナ傾斜角の探索的な修正によりネットワークの性能が著しく低下するおそれのある安全クリティカルなアプリケーションである。セルラーネットワークにおけるRET最適化に対処するために,モジュール型Safe Reinforcement Learningアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 2.099922236065961
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Safe interaction with the environment is one of the most challenging aspects of Reinforcement Learning (RL) when applied to real-world problems. This is particularly important when unsafe actions have a high or irreversible negative impact on the environment. In the context of network management operations, Remote Electrical Tilt (RET) optimisation is a safety-critical application in which exploratory modifications of antenna tilt angles of base stations can cause significant performance degradation in the network. In this paper, we propose a modular Safe Reinforcement Learning (SRL) architecture which is then used to address the RET optimisation in cellular networks. In this approach, a safety shield continuously benchmarks the performance of RL agents against safe baselines, and determines safe antenna tilt updates to be performed on the network. Our results demonstrate improved performance of the SRL agent over the baseline while ensuring the safety of the performed actions.
Abstract（参考訳）: 環境との安全なインタラクションは、現実世界の問題に適用する際の強化学習(rl)の最も難しい側面の1つです。これは、安全でないアクションが環境に高いあるいは不可逆的な悪影響を及ぼす場合に特に重要である。ネットワーク管理における遠隔電気ティルト(RET)最適化は,基地局のアンテナ傾斜角の探索的修正によりネットワークの性能が著しく低下するおそれのある安全クリティカルなアプリケーションである。本稿では,セルラーネットワークにおけるRET最適化に対応するために,モジュール型安全強化学習(SRL)アーキテクチャを提案する。このアプローチでは、安全シールドが安全なベースラインに対してRLエージェントの性能を継続的にベンチマークし、ネットワーク上で実行される安全なアンテナ傾斜更新を決定する。本研究は, SRL剤のベースライン上での性能向上を実証し, 動作の安全性を確保した。

関連論文リスト

SafeCOMM: What about Safety Alignment in Fine-Tuned Telecom Large Language Models? [74.5407418382515]
テレコムタスクとデータセットのための細調整された大型言語モデル(LLM)は、汎用モデルをテレコムドメインに適応させる一般的なプラクティスである。近年の研究では、良質な微調整でさえLLMの安全性を低下させ、有害なユーザークエリや非倫理的なユーザクエリに応答させることが示されている。
論文参考訳（メタデータ） (2025-05-29T13:31:51Z)
Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。 STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文参考訳（メタデータ） (2025-05-22T18:05:16Z)
Safety Modulation: Enhancing Safety in Reinforcement Learning through Cost-Modulated Rewards [23.15178050525514]
セーフ強化学習(Safe Reinforcement Learning, セーフRL)は、RLエージェントをトレーニングして、安全性の制約を守りながら、実環境におけるパフォーマンスを最大化することを目的としている。本稿では,安全なポリシ関数学習を可能にする,SMPO(Safety Modulated Policy Optimization)と呼ばれる新しい安全なRL手法を提案する。
論文参考訳（メタデータ） (2025-04-03T21:35:22Z)
Reward-Safety Balance in Offline Safe RL via Diffusion Regularization [16.5825143820431]
制約付き強化学習(RL)は、安全制約下での高性能な政策を求める。拡散規則化制約付きオフライン強化学習(DRCORL)を提案する。 DRCORLは、まず拡散モデルを使用して、オフラインデータから行動ポリシーをキャプチャし、その後、効率的な推論を可能にするために単純化されたポリシーを抽出する。
論文参考訳（メタデータ） (2025-02-18T00:00:03Z)
FOSP: Fine-tuning Offline Safe Policy through World Models [3.7971075341023526]
モデルに基づく強化学習(RL)は、高次元タスクを扱う訓練効率と能力を示した。しかしながら、以前の作業は、実際のデプロイメントにおけるオンライン探索のために、依然として安全上の課題を生じさせている。本稿では、オフラインで訓練されたポリシーを微調整することで、視覚に基づくロボットタスクの展開段階における安全性をさらに向上することを目的とする。
論文参考訳（メタデータ） (2024-07-06T03:22:57Z)
Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文参考訳（メタデータ） (2024-05-29T18:00:21Z)
Balance Reward and Safety Optimization for Safe Reinforcement Learning: A Perspective of Gradient Manipulation [26.244121960815907]
探索中の報酬と安全の間のトレードオフを管理することは、大きな課題である。本研究では,勾配操作の理論を活用することによって,この矛盾する関係に対処することを目的とする。実験の結果,提案アルゴリズムは報酬のバランスと安全性の最適化の観点から,最先端のベースラインよりも優れていた。
論文参考訳（メタデータ） (2024-05-02T19:07:14Z)
A Multiplicative Value Function for Safe and Efficient Reinforcement Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文参考訳（メタデータ） (2023-03-07T18:29:15Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。価値に基づく政策段階の深層強化学習(DRL)について考察する。また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文参考訳（メタデータ） (2021-12-16T16:53:56Z)
Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文参考訳（メタデータ） (2021-06-03T16:45:40Z)
Symbolic Reinforcement Learning for Safe RAN Control [62.997667081978825]
無線アクセスネットワーク(RAN)アプリケーションにおける安全な制御のためのシンボリック強化学習(SRL)アーキテクチャを紹介します。本ツールでは,LTL(Linear Temporal Logic)で表現された高レベルの安全仕様を選択して,所定のセルネットワーク上で動作しているRLエージェントをシールドする。ユーザインタフェース(ui)を用いて,ユーザがインテントの仕様をアーキテクチャに設定し,許可されたアクションとブロックされたアクションの違いを検査する。
論文参考訳（メタデータ） (2021-03-11T10:56:49Z)
Remote Electrical Tilt Optimization via Safe Reinforcement Learning [1.2599533416395765]
リモート電気ティルト(RET)最適化は、ネットワークのキーパフォーマンス指標(KPI)を最適化するために、基地局(BS)アンテナの垂直傾き角を調整する効率的な方法である。本研究では、傾き制御戦略の学習を目的とした安全強化学習(SRL)フレームワークにおけるRET最適化問題をモデル化する。実験の結果,提案手法は安全で改良された傾き更新ポリシーを学習でき,信頼性が高く,現実のネットワーク展開の可能性も高いことがわかった。
論文参考訳（メタデータ） (2020-10-12T16:46:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。