Fugu-MT 論文翻訳(概要): A Survey of Constraint Formulations in Safe Reinforcement Learning

論文の概要: A Survey of Constraint Formulations in Safe Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.02025v1
Date: Sat, 3 Feb 2024 04:40:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 22:51:56.545609
Title: A Survey of Constraint Formulations in Safe Reinforcement Learning
Title（参考訳）: 安全強化学習における制約定式化の検討
Authors: Akifumi Wachi, Xun Shen, Yanan Sui
Abstract要約: 安全な強化学習は実験データからエージェントのポリシーを安全に最適化する強力なパラダイムです一般的な安全なRLアプローチは、制約付き基準に基づいており、安全制約の下で期待される累積報酬を最大化する問題を解決する。本稿では,各定式化に特化して設計されたアルゴリズムのキュレートされた選択とともに,代表的制約定式化の包括的レビューを行う。我々は,安全強化学習研究の現状と今後の方向性について論じる。
参考スコア（独自算出の注目度）: 17.52609277902876
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ensuring safety is critical when applying reinforcement learning (RL) to real-world problems. Consequently, safe RL emerges as a fundamental and powerful paradigm for safely optimizing an agent's policy from experimental data. A popular safe RL approach is based on a constrained criterion, which solves the problem of maximizing expected cumulative reward under safety constraints. Though there has been recently a surge of such attempts to achieve safety in RL, a systematic understanding of the field is difficult due to 1) the diversity of constraint representations and 2) little discussion of their interrelations. To address this knowledge gap, we provide a comprehensive review of representative constraint formulations, along with a curated selection of algorithms specifically designed for each formulation. Furthermore, we elucidate the theoretical underpinnings that reveal the mathematical mutual relations among common problem formulations. We conclude with a discussion of the current state and future directions of safe reinforcement learning research.
Abstract（参考訳）: 実世界の問題に強化学習(RL)を適用する場合、安全性を確保することが重要である。その結果、安全なRLは実験データからエージェントのポリシーを安全に最適化するための基本的で強力なパラダイムとして現れる。一般的なsafe rlアプローチは、安全制約下での期待累積報酬を最大化する問題を解決する制約付き基準に基づいている。近年、RLの安全性を達成するための試みが急増しているが、この分野の体系的な理解は困難である。 1)制約表現の多様性 2) 相互関係についてはほとんど議論していない。この知識のギャップに対処するために,各定式化用に特別に設計されたアルゴリズムのキュレートされた選択とともに,代表的な制約定式化を包括的にレビューする。さらに,共通問題定式化の数学的相互関係を明らかにする理論的基盤を解明する。最後に,安全強化学習研究の現状と今後の方向性について考察する。

関連論文リスト

Vulnerability Analysis of Safe Reinforcement Learning via Inverse Constrained Reinforcement Learning [1.4707788677208018]
セーフなRLポリシーの脆弱性を明らかにするための敵攻撃フレームワークを提案する。我々のフレームワークは制約モデルとサロゲート(ラーナー)ポリシーを学習し、勾配に基づく攻撃の最適化を可能にする。
論文参考訳（メタデータ） (2026-02-18T15:43:36Z)
Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。 LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文参考訳（メタデータ） (2025-09-08T15:24:33Z)
Viability of Future Actions: Robust Safety in Reinforcement Learning via Entropy Regularization [47.30677525394649]
モデルレス強化学習における2つの確立された技術間の相互作用を解析する。本研究では,制約付きRLにおけるエントロピー規則化が,将来の活動回数を最大化するために学習に偏りを生じさせることを示す。エントロピー正則化とロバストネスの関連性は、さらなる実証的・理論的研究の道のりとして有望である。
論文参考訳（メタデータ） (2025-06-12T16:34:19Z)
Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文参考訳（メタデータ） (2025-05-08T13:29:46Z)
Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning [7.888219789657414]
安全オフライン強化学習(RL)において、安全制約を厳格に遵守しつつ累積報酬を最大化する政策を開発することが目的である。本稿では, 条件付き変分オートエンコーダを用いて, 保守的に安全な政策を学習することから始まる新しいアプローチを用いて, この問題に対処する。我々は、これを制約付き逆戻り最大化問題とみなし、この政策は、推定された潜伏安全性の制約に従い、報酬を最適化することを目的としている。
論文参考訳（メタデータ） (2024-12-11T22:00:07Z)
Feasibility Consistent Representation Learning for Safe Reinforcement Learning [25.258227763316228]
FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。本手法は,従来の表現学習ベースラインよりも安全性に配慮した埋め込みを学習し,優れた性能を実現する。
論文参考訳（メタデータ） (2024-05-20T01:37:21Z)
Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning [4.14360329494344]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文参考訳（メタデータ） (2024-02-24T20:01:15Z)
Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文参考訳（メタデータ） (2023-12-28T18:28:23Z)
Gradient Shaping for Multi-Constraint Safe Reinforcement Learning [31.297400160104853]
オンライン安全強化学習(RL)は、環境との対話を通じて制約を満たしながらタスク効率を最大化する政策を訓練する。本稿では,MCセーフなRLアルゴリズムのための統一フレームワークを提案する。一般ラグランジアンベースの安全なRLアルゴリズムのためのグラディエント・シェーピング(GradS)法を導入し、報酬と制約満足度の両方の観点からトレーニング効率を向上させる。
論文参考訳（メタデータ） (2023-12-23T00:55:09Z)
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-12-18T16:09:43Z)
Joint Learning of Policy with Unknown Temporal Constraints for Safe Reinforcement Learning [0.0]
安全制約と最適なRLポリシーを同時に学習するフレームワークを提案する。この枠組みは、我々の共同学習プロセスの収束を確立する定理によって支えられている。当社のフレームワークをグリッド環境で紹介し、許容される安全性制約とRLポリシーの両方をうまく識別した。
論文参考訳（メタデータ） (2023-04-30T21:15:07Z)
State-wise Safe Reinforcement Learning: A Survey [5.826308050755618]
ステートワイド制約は、現実世界のアプリケーションにおいて最も一般的な制約の1つです。本稿では,RLにおける状態制約に対処する既存のアプローチについて概説する。
論文参考訳（メタデータ） (2023-02-06T21:11:29Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文参考訳（メタデータ） (2022-11-08T04:06:23Z)
Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文参考訳（メタデータ） (2022-07-04T11:43:23Z)
Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文参考訳（メタデータ） (2020-02-26T00:01:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。