論文の概要: Beyond Safety Filtering: Control Barrier Function-Informed Reinforcement Learning for Connected and Automated Vehicles
- arxiv url: http://arxiv.org/abs/2605.16894v1
- Date: Sat, 16 May 2026 09:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:41:24.633175
- Title: Beyond Safety Filtering: Control Barrier Function-Informed Reinforcement Learning for Connected and Automated Vehicles
- Title(参考訳): 安全フィルタリングを超えて:連結車両と自動車両の制御バリア機能インフォームド強化学習
- Authors: Jianye Xu, Bassam Alrifaee,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、学習のガイドに報酬を使用するが、報酬設計は通常、チューニングが難しい手作りの使用である。
共同MARL動作下でのCBF制約値を、安全学習を明示的に導く報酬信号に変換する多エージェント(MARL)のための制御バリア(CBF)インフォームド報酬設計を提案する。
- 参考スコア(独自算出の注目度): 0.17648680700685024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) uses rewards to guide learning, yet reward design is typically hand-crafted using heuristics that can be difficult to tune. We propose a Control Barrier Function (CBF)-informed reward design for Multi-Agent RL (MARL) that converts CBF constraint values under joint MARL actions into a reward signal that explicitly guides safe learning. We compare against two heuristic reward baselines in a four-way multi-lane intersection with connected and automated vehicles. Results show that our method achieves the highest task performance and is less sensitive to reward hyperparameters, yielding consistently strong performance across the tested hyperparameter range. Code for reproducing the experimental results and a video demonstration are available at https://github.com/bassamlab/SigmaRL.
- Abstract(参考訳): 強化学習(RL)は学習のガイドに報酬を使用するが、報酬設計は通常、チューニングが難しいヒューリスティックを使って手作りされる。
共同MARL動作下でのCBF制約値を、安全学習を明示的に導く報酬信号に変換する多エージェントRL(MARL)に対する制御バリア関数(CBF)インフォームド報酬設計を提案する。
連結車両と自動車両の4方向多車線交差点における2つのヒューリスティック報酬ベースラインを比較した。
その結果,提案手法は高いタスク性能を達成でき,高パラメータの報酬に敏感で,テスト対象の超パラメータ範囲で常に強い性能が得られることがわかった。
実験結果を再現するコードとビデオデモはhttps://github.com/bassamlab/SigmaRL.comで公開されている。
関連論文リスト
- CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment [51.10604883057508]
DR-IRL(逆強化学習によるリワードの動的調整)を提案する。
まず、IRLを介して7つの有害なカテゴリをカバーするバランスの取れた安全データセットを用いて、カテゴリ固有の報酬モデルを訓練する。
次に,テキストエンコーダのコサイン類似性によるデータレベルの硬さ,報酬ギャップによるモデルレベルの応答性など,タスク難易度による報酬を導入することにより,グループ相対政策最適化(GRPO)を強化する。
論文 参考訳(メタデータ) (2025-03-23T16:40:29Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Model-free Neural Lyapunov Control for Safe Robot Navigation [0.0]
モデルフリーのDeep Reinforcement Learning (DRL)アルゴリズムは未知のダイナミクスや高次元の問題を解くことができるが、安全性の保証はない。
DRLトレーニングループにおける制御ポリシとTNLFを併用したTwin Neural Lyapunov Function(TNLF)を学習し,学習したTNLFを用いてランタイムモニタを構築する。
本手法は,安全保証の強化を図りながらDRLからスケーラビリティの利点を継承する。
論文 参考訳(メタデータ) (2022-03-02T15:43:29Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。