Fugu-MT 論文翻訳(概要): Safety Enhancement for Deep Reinforcement Learning in Autonomous Separation Assurance

論文の概要: Safety Enhancement for Deep Reinforcement Learning in Autonomous Separation Assurance

arxiv url: http://arxiv.org/abs/2105.02331v1
Date: Wed, 5 May 2021 21:20:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-07 13:28:51.007081
Title: Safety Enhancement for Deep Reinforcement Learning in Autonomous Separation Assurance
Title（参考訳）: 自律的分離保証における深層強化学習の安全性向上
Authors: Wei Guo, Marc Brittain, Peng Wei
Abstract要約: 自律分離保証アプリケーションにおける深層強化学習(DRL)のための安全モジュールを提案する。提案モジュールは、モデル不確実性と状態不確実性の両方に対処し、安全性を向上する。環境設定が困難なオープンソースの航空交通シミュレータにおける2つのサブモジュールの有効性を実証する。
参考スコア（独自算出の注目度）: 5.692513543867634
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The separation assurance task will be extremely challenging for air traffic controllers in a complex and high density airspace environment. Deep reinforcement learning (DRL) was used to develop an autonomous separation assurance framework in our previous work where the learned model advised speed maneuvers. In order to improve the safety of this model in unseen environments with uncertainties, in this work we propose a safety module for DRL in autonomous separation assurance applications. The proposed module directly addresses both model uncertainty and state uncertainty to improve safety. Our safety module consists of two sub-modules: (1) the state safety sub-module is based on the execution-time data augmentation method to introduce state disturbances in the model input state; (2) the model safety sub-module is a Monte-Carlo dropout extension that learns the posterior distribution of the DRL model policy. We demonstrate the effectiveness of the two sub-modules in an open-source air traffic simulator with challenging environment settings. Through extensive numerical experiments, our results show that the proposed sub-safety modules help the DRL agent significantly improve its safety performance in an autonomous separation assurance task.
Abstract（参考訳）: 分離保証タスクは、複雑で高密度の空域環境において、航空管制官にとって極めて困難である。深部強化学習(DRL)は,学習モデルが速度操作を推奨するこれまでの作業において,自律的な分離保証フレームワークの開発に用いられた。本研究では,不確実性のない環境でのこのモデルの安全性を向上させるために,自律的分離保証アプリケーションにおけるDRLの安全モジュールを提案する。提案モジュールはモデル不確実性と状態不確実性の両方に対処して安全性を向上させる。安全モジュールは2つのサブモジュールから構成されており、(1)状態安全サブモジュールは、モデル入力状態に状態障害を導入する実行時間データ拡張法に基づいており、(2)モデル安全サブモジュールは、drlモデルポリシーの後方分布を学習するモンテカルロドロップアウト拡張である。環境設定が困難なオープンソースの航空交通シミュレータにおける2つのサブモジュールの有効性を実証する。数値実験により,提案したサブセーフティモジュールは,自律的分離保証タスクにおいてDRLエージェントの安全性を著しく向上させることを示す。

関連論文リスト

Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。 STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文参考訳（メタデータ） (2025-05-22T18:05:16Z)
ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文参考訳（メタデータ） (2024-10-12T10:46:02Z)
A Safety Modulator Actor-Critic Method in Model-Free Safe Reinforcement Learning and Application in UAV Hovering [6.529120583320167]
本稿では、モデルフリーな安全強化学習(RL)における安全性制約と過大評価を解消する安全変調器アクタ・クリティカル(SMAC)手法を提案する。無人航空機(UAV)ホバリングにおけるシミュレーションと実世界のシナリオ実験の両方で、SMACが安全性の制約を効果的に維持し、メインストリームのベースラインアルゴリズムより優れていることを確認した。
論文参考訳（メタデータ） (2024-10-09T13:07:24Z)
SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints [0.0]
マルチエージェント強化学習パラダイムに拡散モデルを統合する革新的なフレームワークを導入する。このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。
論文参考訳（メタデータ） (2024-06-30T16:05:31Z)
Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文参考訳（メタデータ） (2024-02-23T23:22:06Z)
Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters [0.0]
強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。
論文参考訳（メタデータ） (2023-12-04T12:37:54Z)
Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。 LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文参考訳（メタデータ） (2023-11-28T03:13:09Z)
Safe Deep Policy Adaptation [7.2747306035142225]
強化学習(RL)に基づく政策適応は、汎用性と汎用性を提供するが、安全性と堅牢性に挑戦する。政策適応と安全強化学習の課題を同時に解決する新しいRLおよび制御フレームワークであるSafeDPAを提案する。我々は、SafeDPAの理論的安全性を保証し、学習エラーや余分な摂動に対するSafeDPAの堅牢性を示す。
論文参考訳（メタデータ） (2023-10-08T00:32:59Z)
Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文参考訳（メタデータ） (2022-12-14T03:11:25Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Safe Model-Based Reinforcement Learning with an Uncertainty-Aware Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文参考訳（メタデータ） (2022-10-14T06:16:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。