論文の概要: COP-Q: Safety-First Reinforcement Learning for Robot Control via Cholesky-Ordered Projection
- arxiv url: http://arxiv.org/abs/2606.04749v1
- Date: Wed, 03 Jun 2026 11:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.708123
- Title: COP-Q: Safety-First Reinforcement Learning for Robot Control via Cholesky-Ordered Projection
- Title(参考訳): COP-Q:コレスキー順序投影によるロボット制御のための安全第一強化学習
- Authors: Guopeng Li, Moritz A. Zanger, Matthijs T. J. Spaan, Julian F. P. Kooij,
- Abstract要約: 政治的でない安全な強化学習では、報酬と安全性のQ値が、別の批評家アンサンブルによって一般的に学習される。
この客観的な扱いはオブジェクト間の相関を無視し、過度に保守的な値の推定につながる可能性がある。
ベクトル値の推定にオブジェクト間の共分散を組み込んだ安全第一手法であるColesky-Ordered Projection Q-learning (COP-Q)を提案する。
- 参考スコア(独自算出の注目度): 13.702950888176213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe robot control requires maximizing return while satisfying safety constraints. In off-policy safe reinforcement learning, reward and safety Q-values are commonly learned by separate critic ensembles, with uncertainty handled independently for each objective. This objective-wise treatment neglects inter-objective correlation and can lead to overly conservative value estimates, thereby reducing sample efficiency. To address this issue, we propose Cholesky-Ordered Projection Q-learning (COP-Q), a safety-first method that incorporates inter-objective covariance into vector-valued Q-value estimation. COP-Q constructs a generalized confidence bound in the joint Q-value space and uses Cholesky factorization to encode objective priority in a sequential form. This preserves conservatism on safety while adaptively reducing excessive conservatism on the reward objective. The resulting estimate is used in both temporal-difference target computation and actor optimization. COP-Q incurs minimal computational overhead and is readily compatible with most existing deep Q-learning frameworks. Experiments on robot locomotion in Brax and safe navigation in Safety-Gymnasium, covering both hard- and soft-safety settings, demonstrate that COP-Q achieves strong safety performance together with competitive or improved sample efficiency relative to representative baselines.
- Abstract(参考訳): 安全ロボット制御には、安全性の制約を満たしながらリターンを最大化する必要がある。
政治的でない安全な強化学習では、報酬と安全性のQ値は通常、個別の批評家アンサンブルによって学習され、それぞれの目的に対して独立して不確実性が扱われる。
この客観的な処理は、オブジェクト間の相関を無視し、過度に保守的な値推定を導き、サンプル効率を低下させる。
この問題に対処するため,Colesky-Ordered Projection Q-learning (COP-Q) を提案する。
COP-Q は、合同 Q-値空間に有界な一般化された信頼度を構築し、Colesky factorization を用いて、目的の優先度を逐次的に符号化する。
これは、報酬目的に対する過度の保守性を適応的に低減しつつ、安全に対する保守性を保っている。
得られた推定値は、時間差目標計算とアクター最適化の両方で使用される。
COP-Qは計算オーバーヘッドを最小限にし、既存のディープラーニングフレームワークと容易に互換性がある。
Braxにおけるロボットの移動実験と安全体育館における安全ナビゲーション実験は、COP-Qが、代表ベースラインに対する競争力や改善されたサンプル効率とともに、強力な安全性能を達成することを実証している。
関連論文リスト
- Selective Safety Steering via Value-Filtered Decoding [54.87935112120107]
大型言語モデル(LLM)は人間の価値観に合わせるように訓練されているが、その世代は安全上の制約に反する可能性がある。
既存のデコード時のステアリング手法は、しばしば不要に介入し、ベースモデルの下で安全であった世代を変更する。
安全でない応答の安全性を向上しつつ、そのような不要な介入を減らすための新しいテストタイムステアリング手法を提案する。
論文 参考訳(メタデータ) (2026-05-14T12:13:08Z) - SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - How to Train Your Latent Control Barrier Function: Smooth Safety Filtering Under Hard-to-Model Constraints [21.03977709777739]
本研究では,可到達性値関数を制御障壁関数(CBF)に適応させることにより,最適化に基づくスムーズなフィルタリングを実現する。
本稿では,ラベル付けを伴わずにスムーズなマージン関数に繋がる勾配のペナルティによって,両方の課題に対処するLatentCBFを提案する。
視覚に基づく操作ポリシーによるシミュレーションベンチマークとハードウェアの実験は、LatentCBFがスムーズな安全フィルタリングを可能にすることを示した。
論文 参考訳(メタデータ) (2025-11-23T20:15:28Z) - CARE: Decoding Time Safety Alignment via Rollback and Introspection Intervention [68.95008546581339]
Contrastive Decodingのような既存のデコーディングタイムの介入は、安全と応答品質の間に深刻なトレードオフを強いることが多い。
本稿では,3つの重要なコンポーネントを統合した,復号時安全アライメントのための新しいフレームワークであるCAREを提案する。
このフレームワークは、安全性、品質、効率のバランスが良く、有害な応答率が低く、ユーザエクスペリエンスを最小限に破壊できる。
論文 参考訳(メタデータ) (2025-09-01T04:50:02Z) - Verifiable Safety Q-Filters via Hamilton-Jacobi Reachability and Multiplicative Q-Networks [8.042618833885168]
ハミルトン・ヤコビ到達可能性解析に基づく検証可能なモデルフリー安全フィルタを提案する。
提案手法は,4つの標準安全制御ベンチマークで検証されたモデルフリー安全証明書をうまく合成する。
論文 参考訳(メタデータ) (2025-05-27T18:12:50Z) - A Physics-Informed Machine Learning Framework for Safe and Optimal Control of Autonomous Systems [8.347548017994178]
安全性とパフォーマンスは競合する目標になり得るため、共同最適化が難しくなる。
本稿では,性能目標をコスト関数で符号化し,安全性要件を状態制約として課す,状態制約付き最適制御問題を提案する。
結果値関数はハミルトン・ヤコビ・ベルマン方程式を満たすことを示した。
論文 参考訳(メタデータ) (2025-02-16T09:46:17Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Wasserstein Constrained Deep Q-Learning [2.088376060651494]
本稿では,Wasserstein ambiguity セットを利用した分散ロバストなQ-Learningアルゴリズム (DrQ) を提案する。
リチウムイオン電池の高速充電のケーススタディを用いて、理想主義的安全性保証が安全性を全般的に向上させる方法について検討する。
論文 参考訳(メタデータ) (2020-02-07T21:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。