論文の概要: Reinforcement Learning for Risk Adaptation via Differentiable CVaR Barrier Functions
- arxiv url: http://arxiv.org/abs/2605.21257v1
- Date: Wed, 20 May 2026 14:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.734226
- Title: Reinforcement Learning for Risk Adaptation via Differentiable CVaR Barrier Functions
- Title(参考訳): CVaRバリア関数を用いたリスク適応のための強化学習
- Authors: Xinyi Wang, Taekyung Kim, Bardh Hoxha, Georgios Fainekos, Dimitra Panagou,
- Abstract要約: 障害物運動の不確実性下での群集ナビゲーションのためのエンドツーエンドのリスク適応フレームワークを提案する。
このフレームワークは強化学習(RL)と微分可能な二次プログラム安全層を組み合わせたものである。
提案手法は, 不確実性下での安全性, 効率, 一般化において, 最強の総合性能を実現するものである。
- 参考スコア(独自算出の注目度): 14.67494440368097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning through crowded environments under uncertain obstacle motions remains difficult, as stochastic interactions often induce overly conservative behavior or reduced efficiency. To address this challenge, we propose an end-to-end risk adaptation framework for crowd navigation under obstacle-motion uncertainty modeled by a Gaussian mixture model. The framework combines reinforcement learning~(RL) with a differentiable quadratic-program safety layer based on Conditional Value-at-Risk~(CVaR) barrier functions, jointly learning nominal control input, risk level, and safety margin and enforcing explicit probabilistic safety constraints. This design enables context-aware adaptation, promoting efficient behavior while invoking caution only when necessary. We conduct extensive evaluations in dynamic, uncertain, and crowded environments across varying obstacle densities and robot models, and further assess generalization under three out-of-distribution cases. Comparisons across optimization-based, RL-based, and integrated RL and optimization methods are provided, and the proposed method is shown to deliver the strongest overall performance in safety, efficiency, and generalization under uncertainty.
- Abstract(参考訳): 確率的相互作用は、しばしば過度に保守的な行動や効率の低下を引き起こすため、不確実な障害物運動下での混在環境の計画は依然として困難である。
この課題に対処するために,ガウス混合モデルによりモデル化された障害物運動不確実性の下での群集ナビゲーションのためのエンドツーエンドのリスク適応フレームワークを提案する。
このフレームワークは、強化学習〜(RL)と、条件付き値-at-Risk~(CVaR)バリア関数に基づく微分可能な二次プログラム安全層を結合し、名目制御入力、リスクレベル、安全マージンを共同学習し、明示的な確率的安全性制約を強制する。
この設計は、状況に応じた適応を可能にし、必要なときにのみ注意を喚起しながら効率的な行動を促進する。
各種障害物密度およびロボットモデルにおける動的・不確実・密集環境の評価を行い,さらに3つのアウト・オブ・ディストリビューション事例に基づく一般化を評価する。
最適化ベース, RLベース, 統合RLおよび最適化手法の比較を行い, 不確実性下での安全性, 効率, 一般化において, 最強の総合性能を実現する方法を示した。
関連論文リスト
- BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - AURA: Affordance-Understanding and Risk-aware Alignment Technique for Large Language Models [6.059681491089391]
AURAは論理的一貫性と安全性を認識した総合的、段階的な評価を提供する。
本フレームワークは, 内省的自己批判, きめ細かいPRM評価, 適応型安全認識復号をシームレスに結合する。
この研究は、アライメントに敏感なアプリケーションのための新しいベンチマークを設定することで、より安全で責任があり、コンテキストに敏感なAIに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-08-08T08:43:24Z) - Safety-Aware Reinforcement Learning for Control via Risk-Sensitive Action-Value Iteration and Quantile Regression [2.592761128203891]
量子ベースのアクションバリュー反復法は、期待されるコスト対ゴーの分布を学習することで、このバイアスを低減する。
既存の手法では、コスト関数の組み合わせによる複雑なニューラルネットワークアーキテクチャや手動のトレードオフが必要になることが多い。
本研究では、複雑なアーキテクチャを使わずに安全性を確保するために、条件付き値-アット・リスクを組み込んだリスク正規化量子化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-08T00:22:00Z) - Dynamic High-Order Control Barrier Functions with Diffuser for Safety-Critical Trajectory Planning at Signal-Free Intersections [9.041849642602626]
信号のない交差点を通る安全かつ効率的な軌道を計画することは、自動運転車にとって重要な課題である。
本研究では,動的高次制御バリア関数(DHOCBF)と拡散モデル(DSC-Diffuser)を統合する安全クリティカルプランニング手法を提案する。
動的環境における運転安全をより確実にするために,提案したDHOCBFフレームワークは周囲の車両の動きを考慮した動的調整を行う。
論文 参考訳(メタデータ) (2024-11-29T11:57:00Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Risk-Averse Model Uncertainty for Distributionally Robust Safe
Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。
我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。
安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文 参考訳(メタデータ) (2023-01-30T00:37:06Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。