論文の概要: Conditional Sequence Modeling for Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.08584v1
- Date: Mon, 09 Feb 2026 12:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.221858
- Title: Conditional Sequence Modeling for Safe Reinforcement Learning
- Title(参考訳): 安全な強化学習のための条件付きシーケンスモデリング
- Authors: Wensong Bai, Chao Zhang, Qihang Xu, Chufan Chen, Chenhao Zhou, Hui Qian,
- Abstract要約: オフライン安全な強化学習は、固定データセットからポリシーを学習し、累積コスト制約下でのパフォーマンスを最大化することを目的としている。
既存のオフラインセーフなRLメソッドの多くは、あらかじめ指定されたしきい値の下で訓練されている。
CSMをベースとしたRCDTは,複数のコストしきい値にまたがるゼロショット展開をサポートする。
- 参考スコア(独自算出の注目度): 8.858563919623082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline safe reinforcement learning (RL) aims to learn policies from a fixed dataset while maximizing performance under cumulative cost constraints. In practice, deployment requirements often vary across scenarios, necessitating a single policy that can adapt zero-shot to different cost thresholds. However, most existing offline safe RL methods are trained under a pre-specified threshold, yielding policies with limited generalization and deployment flexibility across cost thresholds. Motivated by recent progress in conditional sequence modeling (CSM), which enables flexible goal-conditioned control by specifying target returns, we propose RCDT, a CSM-based method that supports zero-shot deployment across multiple cost thresholds within a single trained policy. RCDT is the first CSM-based offline safe RL algorithm that integrates a Lagrangian-style cost penalty with an auto-adaptive penalty coefficient. To avoid overly conservative behavior and achieve a more favorable return--cost trade-off, a reward--cost-aware trajectory reweighting mechanism and Q-value regularization are further incorporated. Extensive experiments on the DSRL benchmark demonstrate that RCDT consistently improves return--cost trade-offs over representative baselines, advancing the state-of-the-art in offline safe RL.
- Abstract(参考訳): オフライン安全な強化学習(RL)は、累積コスト制約下でのパフォーマンスを最大化しながら、固定データセットからポリシーを学習することを目的としている。
実際には、デプロイ要件はシナリオによって異なり、異なるコストしきい値にゼロショットを適用可能な単一のポリシが必要です。
しかしながら、既存のオフラインセーフなRLメソッドの多くは、予め規定されたしきい値の下でトレーニングされており、コストしきい値を越えて、限定的な一般化とデプロイメントの柔軟性を持つポリシーが得られる。
近年の条件付きシーケンスモデリング(CSM)の進歩により,目標値の指定によるフレキシブルな目標条件制御が可能になった。
RCDTは、ラグランジアン方式のコストペナルティと自動適応ペナルティ係数を統合する最初のCSMベースのオフラインセーフなRLアルゴリズムである。
過度に保守的な振る舞いを回避し、より好適なリターンコストトレードオフを実現するため、報酬コスト対応軌道重み付け機構とQ値正規化をさらに組み込む。
DSRLベンチマークの大規模な実験により、RCDTは代表ベースラインに対するリターンコストのトレードオフを一貫して改善し、オフラインセーフなRLの最先端を推し進めている。
関連論文リスト
- Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning [11.666700714916065]
制約付きRLは強化学習における安全な行動を実施するためのフレームワークである。
制約付きRLを解くための最近の手法は、軌道に基づくコスト制約を代理問題に変換する。
トラジェクトリに基づくコスト制約を変更しず、代わりにグッドのトラジェクトリを模倣するアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-16T08:48:46Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。