Fugu-MT 論文翻訳(概要): Guiding Safe Exploration with Weakest Preconditions

論文の概要: Guiding Safe Exploration with Weakest Preconditions

arxiv url: http://arxiv.org/abs/2209.14148v1
Date: Wed, 28 Sep 2022 14:58:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-29 17:49:44.626480
Title: Guiding Safe Exploration with Weakest Preconditions
Title（参考訳）: ウェイクストプレコンディションによる安全探査の指導
Authors: Greg Anderson, Swarat Chaudhuri, Isil Dillig
Abstract要約: 安全クリティカルな設定のための強化学習では、エージェントはあらゆる時点において安全制約に従うことが望ましい。我々はこの安全な探索問題を解決するためにSPICEと呼ばれる新しいニューロシンボリックアプローチを提案する。
参考スコア（独自算出の注目度）: 15.469452301122177
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In reinforcement learning for safety-critical settings, it is often desirable for the agent to obey safety constraints at all points in time, including during training. We present a novel neurosymbolic approach called SPICE to solve this safe exploration problem. SPICE uses an online shielding layer based on symbolic weakest preconditions to achieve a more precise safety analysis than existing tools without unduly impacting the training process. We evaluate the approach on a suite of continuous control benchmarks and show that it can achieve comparable performance to existing safe learning techniques while incurring fewer safety violations. Additionally, we present theoretical results showing that SPICE converges to the optimal safe policy under reasonable assumptions.
Abstract（参考訳）: 安全クリティカルな設定のための強化学習では、訓練中を含むあらゆる時点における安全制約に従うことが望ましいことが多い。我々はこの安全な探索問題を解決するためにSPICEと呼ばれる新しいニューロシンボリックアプローチを提案する。 SPICEは、トレーニングプロセスに不完全な影響を及ぼすことなく、既存のツールよりも正確な安全性分析を実現するために、象徴的な弱い前提条件に基づくオンライン遮蔽層を使用している。我々は,一連の連続制御ベンチマークによるアプローチを評価し,安全性違反を少なく抑えながら,既存の安全学習技術に匹敵する性能が得られることを示した。さらに,SPICEが合理的な仮定の下で最適な安全政策に収束することを示す理論的結果を示す。

関連論文リスト

Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-12T22:03:35Z)
Predictive Safety Shield for Dyna-Q Reinforcement Learning [0.0]
離散空間におけるモデルに基づく強化学習エージェントの予測安全シールドを提案する。我々の安全シールドは、環境モデルの安全なシミュレーションから生じる安全な予測に基づいて、Q関数を局所的に更新する。グリッドワールド環境に関する我々の実験は、たとえ短い予測地平線であっても最適な経路を特定するのに十分であることを示した。
論文参考訳（メタデータ） (2025-11-26T15:59:55Z)
Safety Representations for Safer Policy Learning [12.492942288509878]
安全クリティカルな応用では、国家空間の探索は破滅的な結果をもたらす可能性がある。既存の安全な探査手法は、制約を課すことによってこれを緩和しようとする。状態条件付き安全表現を明示的に学習する手法を提案する。
論文参考訳（メタデータ） (2025-02-27T18:10:33Z)
Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding [5.5929450570003185]
我々は、トレーニング中の状態-動作ペアの安全性と安全性を区別する新しい技術であるmboxADVICE(Adaptive Shielding with a Contrastive Autoencoder)を紹介する。総合実験の結果,ADVICEはトレーニング中の安全違反(約50%)を有意に低減し,他の手法と比較して競争力のある結果が得られた。
論文参考訳（メタデータ） (2024-05-28T13:47:21Z)
Feasibility Consistent Representation Learning for Safe Reinforcement Learning [25.258227763316228]
FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。本手法は,従来の表現学習ベースラインよりも安全性に配慮した埋め込みを学習し,優れた性能を実現する。
論文参考訳（メタデータ） (2024-05-20T01:37:21Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-12-18T16:09:43Z)
State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文参考訳（メタデータ） (2023-11-03T20:32:30Z)
Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文参考訳（メタデータ） (2023-04-21T16:19:54Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Context-Aware Safe Reinforcement Learning for Non-Stationary Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2021-01-02T23:52:22Z)
Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文参考訳（メタデータ） (2020-10-27T17:54:25Z)
Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文参考訳（メタデータ） (2020-07-07T15:50:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。