論文の概要: TCRL: Temporal-Coupled Adversarial Training for Robust Constrained Reinforcement Learning in Worst-Case Scenarios
- arxiv url: http://arxiv.org/abs/2602.13040v1
- Date: Fri, 13 Feb 2026 15:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.01874
- Title: TCRL: Temporal-Coupled Adversarial Training for Robust Constrained Reinforcement Learning in Worst-Case Scenarios
- Title(参考訳): TCRL:最悪のシナリオにおけるロバスト制約強化学習のための時間結合型対人訓練
- Authors: Wentao Xu, Zhongming Yao, Weihao Li, Zhenghang Song, Yumeng Song, Tianyi Li, Yushuai Li,
- Abstract要約: 制約強化学習(Constrained Reinforcement Learning)は、制約条件下での意思決定ポリシーの最適化を目的とする。
既存のロバストなCRLアプローチは、主に1ステップの摂動と時間的に独立した対向モデルに焦点を当てている。
最悪のシナリオにおいて、頑健な制約付き強化学習(TCRL)のための時間結合型対向学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.3881187966342905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constrained Reinforcement Learning (CRL) aims to optimize decision-making policies under constraint conditions, making it highly applicable to safety-critical domains such as autonomous driving, robotics, and power grid management. However, existing robust CRL approaches predominantly focus on single-step perturbations and temporally independent adversarial models, lacking explicit modeling of robustness against temporally coupled perturbations. To tackle these challenges, we propose TCRL, a novel temporal-coupled adversarial training framework for robust constrained reinforcement learning (TCRL) in worst-case scenarios. First, TCRL introduces a worst-case-perceived cost constraint function that estimates safety costs under temporally coupled perturbations without the need to explicitly model adversarial attackers. Second, TCRL establishes a dual-constraint defense mechanism on the reward to counter temporally coupled adversaries while maintaining reward unpredictability. Experimental results demonstrate that TCRL consistently outperforms existing methods in terms of robustness against temporally coupled perturbation attacks across a variety of CRL tasks.
- Abstract(参考訳): Constrained Reinforcement Learning (CRL) は、制約条件下での意思決定ポリシーを最適化することを目的としており、自律運転、ロボット工学、電力グリッド管理といった安全上重要な領域に適用できる。
しかし、既存のロバストCRLアプローチは、主に1段階の摂動と時間的に独立な対向モデルに焦点を合わせており、時間的に結合された摂動に対するロバストネスの明確なモデリングは欠如している。
これらの課題に対処するために、最悪のシナリオにおいて頑健な制約付き強化学習(TCRL)のための新しい時間結合型対向学習フレームワークTCRLを提案する。
まず、TCRLは最悪のケース認識コスト制約関数を導入し、敵攻撃者を明示的にモデル化することなく、時間的に結合された摂動下での安全性コストを見積もる。
第2に、TCRLは、報酬不予測性を保ちながら、時間的に結合した敵に対抗するための報酬に関する二重制約防御機構を確立する。
実験結果から,TCRLは様々なCRLタスクにおける時間的結合摂動攻撃に対するロバスト性において,既存の手法よりも一貫して優れていた。
関連論文リスト
- Conditional Sequence Modeling for Safe Reinforcement Learning [8.858563919623082]
オフライン安全な強化学習は、固定データセットからポリシーを学習し、累積コスト制約下でのパフォーマンスを最大化することを目的としている。
既存のオフラインセーフなRLメソッドの多くは、あらかじめ指定されたしきい値の下で訓練されている。
CSMをベースとしたRCDTは,複数のコストしきい値にまたがるゼロショット展開をサポートする。
論文 参考訳(メタデータ) (2026-02-09T12:22:57Z) - Sparse Threats, Focused Defense: Criticality-Aware Robust Reinforcement Learning for Safe Autonomous Driving [11.62520853262219]
本稿では、自律運転におけるスパースかつ安全クリティカルなリスクに対処するために、臨界対応ロバストRL(CARRL)を導入する。
CARRLは2つの相互作用成分からなる: リスク露光敵 (REA) とリスクターゲット型ロバストエージェント (RTRA) である。
提案手法は,最先端のベースライン法と比較して,全症例で少なくとも22.66%の衝突率を減少させることを示す。
論文 参考訳(メタデータ) (2026-01-05T05:20:16Z) - Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts [68.18666621908898]
単一ドメインのオフライン強化学習(RL)は、しばしば限られたデータカバレッジに悩まされる。
ドメイン間のオフラインRLは、動的シフトを伴う他のドメインからの追加データを活用することでこの問題に対処する。
本稿では、クロスドメインオフラインRLにおける動的シフトに対する二重(列車時間とテスト時間の両方)ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-12-02T07:20:39Z) - Large Reasoning Models Learn Better Alignment from Flawed Thinking [56.08883934423522]
大規模推論モデル(LRM)は、最終的な答えを生成する前に構造化チェーン・オブ・シント(CoT)を生成することで「考える」。
本稿では,Regressed Learning (RL) 手法であるRECAPを提案する。
論文 参考訳(メタデータ) (2025-10-01T14:15:43Z) - Distributionally Robust Constrained Reinforcement Learning under Strong Duality [37.76993170360821]
分布ロバスト制約付きRL(DRC-RL)の問題点について検討する。
目標は、環境分布の変化や制約の対象となる報酬を最大化することである。
本稿では, 第一の効率的かつ証明可能な解を可能にする, 強双対性に基づくアルゴリズムフレームワークを開発する。
論文 参考訳(メタデータ) (2024-06-22T08:51:57Z) - Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:10:04Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Efficient Adversarial Training without Attacking: Worst-Case-Aware
Robust Reinforcement Learning [14.702446153750497]
Worst-case-aware Robust RL (WocaR-RL) は、深層強化学習のための堅牢なトレーニングフレームワークである。
我々は,WocaR-RLが様々な攻撃により最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-10-12T05:24:46Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。