論文の概要: Latent Q-Barrier Shielding for Safe In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.25267v1
- Date: Sun, 24 May 2026 21:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.053555
- Title: Latent Q-Barrier Shielding for Safe In-Context Reinforcement Learning
- Title(参考訳): 安全な文脈強化学習のための潜時Qバリアシールド
- Authors: Minjae Kwon, Amir Moeini, Shangtong Zhang, Lu Feng,
- Abstract要約: 我々は、コンテキスト表現、潜伏ダイナミクス、およびデプロイ前のアンサンブルコスト批判を学習する潜伏Qバリアシールドを提案する。
Q-Barrier-satisfying アクションは次の潜伏予算状態に留まり、学習評論家の下でほぼ予算が安全である。
- 参考スコア(独自算出の注目度): 18.262754252598867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe in-context reinforcement learning (ICRL) adapts online from interaction history without test-time parameter updates while controlling episode cost under a safety budget. Under out-of-distribution (OOD) deployment shifts, pretraining-only safe ICRL can give poor reward-safety tradeoffs because the remaining budget affects behavior only through frozen policy conditioning, not an explicit action-level check against predicted future cost. We propose a latent Q-Barrier shield that learns a context representation, latent dynamics, and an ensemble cost critic before deployment. Without parameter updates, the shield infers context from history and filters or softly reweights candidate actions using the remaining budget and predicted future cost. We prove a conditional, error-decomposed barrier-margin result: a Q-Barrier-satisfying action leaves the next latent-budget state with an approximately budget-safe continuation under the learned critic, up to Bellman and latent-prediction errors. Across five safe ICRL benchmarks, the shield improves deployment-time reward-safety tradeoffs over a strong safe-ICRL baseline: after a short context window, it achieves higher return in four of five benchmarks while matching or lowering average episode cost in all five.
- Abstract(参考訳): セーフ・イン・コンテキスト強化学習(ICRL)は、安全予算の下でエピソードコストを制御しながら、テスト時間パラメータを更新することなく、インタラクション履歴からオンラインに適応する。
アウト・オブ・ディストリビューション(OOD)のデプロイメントシフトの下では、事前訓練のみの安全なICRLは、将来のコストに対する明示的なアクションレベルチェックではなく、残りの予算が凍結されたポリシー条件によってのみ行動に影響を与えるため、報酬セーフなトレードオフを生じる可能性がある。
我々は、コンテキスト表現、潜伏ダイナミクス、およびデプロイ前のアンサンブルコスト批判を学習する潜伏Qバリアシールドを提案する。
パラメータの更新がなければ、シールドは履歴とフィルタからコンテキストを推測し、残りの予算を使って候補アクションをソフトにリウェイトし、将来のコストを予測する。
Q-Barrier-satisfying アクションは、学習評論家のベルマンと潜伏予測誤差まで、ほぼ予算セーフな継続で次の潜伏予算状態を残します。
5つの安全なICRLベンチマーク全体で、シールドは強力な安全なICRLベースラインに対するデプロイメント時の報酬-安全トレードオフを改善している。
関連論文リスト
- How Many Iterations to Jailbreak? Dynamic Budget Allocation for Multi-Turn LLM Evaluation [22.523809021772802]
大規模言語モデル(LLM)の多ターン会話設定における重要なイベントは、しばしば繰り返し対話の後にのみ現れる。
最近のコンフォメーションサバイバルフレームワークは、関心のイベントをトリガーするイテレーション数に基づいて、信頼できる低い予測境界(LPB)を構築している。
DAPROは,マルチターンインタラクションにおいて,時間と時間の境界を設定するための,理論上有効な動的予算配分フレームワークである。
論文 参考訳(メタデータ) (2026-05-07T17:25:15Z) - SafeHarness: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment [19.947119280467934]
セーフハーネス(Safeharness)は、4つの防衛レイヤがエージェントライフサイクルに直接織られるセキュリティアーキテクチャである。
ベンチマークデータセットの安全性を、多様なハーネス構成で評価する。
論文 参考訳(メタデータ) (2026-04-15T08:59:00Z) - Off-Policy Safe Reinforcement Learning with Constrained Optimistic Exploration [14.969489432052661]
外部の安全強化学習手法は、累積コストにおけるコスト非依存の探索と推定バイアスによる制約違反に悩まされる。
コストバウンドなオンライン探索と保守的なオフライン分散価値学習を統合した,非政治的安全なRLアルゴリズムであるConstrained Optimistic eXploration Q-learning (COX-Q)を提案する。
安全な速度、安全なナビゲーション、自律運転タスクの実験は、COX-Qが高いサンプル効率、競争力のあるテスト安全性能、制御されたデータ収集コストを達成することを示した。
論文 参考訳(メタデータ) (2026-03-25T03:27:37Z) - $V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts [81.48669089692189]
一般値モデル(例えば$V_0.5$)は、コンテキスト内のモデル機能を明示的にエンコードすることで、事前訓練された値推定を実現する。
本稿では,このような値モデルにより予測されるベースラインと,スパースロールアウトから導出される経験的平均とを適応的に融合する$V_0.5$を提案する。
V_0.5$はGRPOとDAPOを大きく上回り、より高速な収束と約10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:41Z) - Learning to maintain safety through expert demonstrations in settings with unknown constraints: A Q-learning perspective [1.104960878651584]
我々は、保守的であることと高い回帰軌道の可能性を著しく増大させることのバランスを表わす軌道の可能性を最大化する政策を見出した。
我々は、タスク固有の報酬だけでなく、州の安全性の評価にも依存する$Q$の値で、個々の状態-行動ペアの「約束」を定式化する。
これは、制約の下での逆学習問題に対する安全なQ-ラーニングの視点を必要とする。
論文 参考訳(メタデータ) (2026-02-27T08:55:29Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - Safety Modulation: Enhancing Safety in Reinforcement Learning through Cost-Modulated Rewards [23.15178050525514]
セーフ強化学習(Safe Reinforcement Learning, セーフRL)は、RLエージェントをトレーニングして、安全性の制約を守りながら、実環境におけるパフォーマンスを最大化することを目的としている。
本稿では,安全なポリシ関数学習を可能にする,SMPO(Safety Modulated Policy Optimization)と呼ばれる新しい安全なRL手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T21:35:22Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。