論文の概要: Constraint-Aware Reinforcement Learning via Adaptive Action Scaling
- arxiv url: http://arxiv.org/abs/2510.11491v1
- Date: Mon, 13 Oct 2025 14:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.416116
- Title: Constraint-Aware Reinforcement Learning via Adaptive Action Scaling
- Title(参考訳): 適応的行動スケーリングによる制約対応強化学習
- Authors: Murad Dawood, Usama Ahmed Siddiquie, Shahram Khorshidi, Maren Bennewitz,
- Abstract要約: 本稿では,予測制約違反に基づいてエージェントの行動をスケールするモジュール型コスト認識レギュレータを提案する。
規制当局は、行動の抑制を回避しつつ、制約違反を最小限に抑えるよう訓練されている。
提案手法は, SAC や TD3 などの非政治的 RL 手法とシームレスに連携し, 安全ガイムの移動作業における最先端のリターン・ツー・コスト比を実現する。
- 参考スコア(独自算出の注目度): 6.6638441348404855
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Safe reinforcement learning (RL) seeks to mitigate unsafe behaviors that arise from exploration during training by reducing constraint violations while maintaining task performance. Existing approaches typically rely on a single policy to jointly optimize reward and safety, which can cause instability due to conflicting objectives, or they use external safety filters that override actions and require prior system knowledge. In this paper, we propose a modular cost-aware regulator that scales the agent's actions based on predicted constraint violations, preserving exploration through smooth action modulation rather than overriding the policy. The regulator is trained to minimize constraint violations while avoiding degenerate suppression of actions. Our approach integrates seamlessly with off-policy RL methods such as SAC and TD3, and achieves state-of-the-art return-to-cost ratios on Safety Gym locomotion tasks with sparse costs, reducing constraint violations by up to 126 times while increasing returns by over an order of magnitude compared to prior methods.
- Abstract(参考訳): 安全強化学習(RL)は、作業性能を維持しながら制約違反を減らすことにより、訓練中の探索から生じる安全でない行動を軽減することを目的としている。
既存のアプローチは、通常、報酬と安全性を共同で最適化する単一のポリシーに依存しており、これは競合する目的によって不安定を引き起こす可能性がある。
本稿では,規制を覆すのではなく,スムーズな行動変調による探索を保ちながら,予測された制約違反に基づいてエージェントの行動をスケールするモジュール型コスト対応レギュレータを提案する。
規制当局は、規制違反を最小限に抑えつつ、行動の退行抑制を回避できるように訓練されている。
提案手法は, SAC や TD3 などの非政治的 RL 手法とシームレスに連携し, 安全ガイムの移動作業における現状とコストの比率を疎コストで達成し, 制約違反を最大 126 倍まで低減し, 従来手法に比べて最大 1 桁以上のリターンを増大させる。
関連論文リスト
- Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - Incentivizing Safer Actions in Policy Optimization for Constrained Reinforcement Learning [9.62939764063531]
制約強化学習(Constrained Reinforcement Learning)は、事前定義された制約制約に固執しながら、リターンを最大化することを目的としている。
継続的なコントロール設定では、報酬と制約満足度のトレードオフは依然として大きな課題です。
我々は、報酬構造に加えて、適応的なインセンティブ機構を統合する新しいアプローチを導入し、制約境界内に留まる。
論文 参考訳(メタデータ) (2025-09-11T07:33:35Z) - Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - Do No Harm: A Counterfactual Approach to Safe Reinforcement Learning [5.862025534776996]
制御のための強化学習は、環境の不確実性や複雑な表現を考慮に入れた豊かなフィードバックポリシーを学ぶ能力によって、ますます人気が高まっている。
このような方法では、もしエージェントが入居しているか、あるいは訪れなければならない場合、制約違反が避けられない状態であるなら、どの程度罰せられるべきかは明らかでない。
我々は,この課題に対して,既定の安全政策と比較して,学習した政策の事実的害に対する制約を定式化することによって対処する。
哲学的な意味では、この定式化は学習者にそれが引き起こした制約違反を罰するだけであり、実際的な意味では最適な制御問題の実現可能性を維持する。
論文 参考訳(メタデータ) (2024-05-19T20:33:21Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Handling Long and Richly Constrained Tasks through Constrained
Hierarchical Reinforcement Learning [20.280636126917614]
目標の安全性 強化学習(RL)の設定は通常、軌道上の制約によって処理される。
本稿では,上位レベルの制約付き検索エージェントと下位レベルの目標条件付きRLエージェントを組み合わせた(安全)階層型強化学習(CoSHRL)機構を提案する。
CoSHRLの大きな利点は、コスト値分布の制約を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。
論文 参考訳(メタデータ) (2023-02-21T12:57:12Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Lyapunov Barrier Policy Optimization [15.364174084072872]
本稿では,lyapunovベースのバリア関数を用いて,トレーニングイテレーション毎にポリシ更新をセーフセットに制限する手法であるlbpoを提案する。
また,本手法により,環境の制約に対して,エージェントの保守性を制御できる。
論文 参考訳(メタデータ) (2021-03-16T17:58:27Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。