論文の概要: C-STEP: Continuous Space-Time Empowerment for Physics-informed Safe Reinforcement Learning of Mobile Agents
- arxiv url: http://arxiv.org/abs/2603.24241v1
- Date: Wed, 25 Mar 2026 12:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.286037
- Title: C-STEP: Continuous Space-Time Empowerment for Physics-informed Safe Reinforcement Learning of Mobile Agents
- Title(参考訳): C-STEP:物理情報を用いた移動体エージェントの安全強化学習のための連続的時空エンパワーメント
- Authors: Guihlerme Daubt, Adrian Redder,
- Abstract要約: C-STEP(Continuous Space-Time Empowerment for Physics-informed, C-STEP)セーフRLは、決定論的で連続的なドメインに適したエージェント中心安全性の新たな尺度である。
C-STEPは、正のナビゲーション報酬関数を増大させることで、物理インフォームドな固有報酬を設計することができる。
数値計算の結果、衝突が少なく、障害物に近づき、旅行時間に限った増加しか示さなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe navigation in complex environments remains a central challenge for reinforcement learning (RL) in robotics. This paper introduces Continuous Space-Time Empowerment for Physics-informed (C-STEP) safe RL, a novel measure of agent-centric safety tailored to deterministic, continuous domains. This measure can be used to design physics-informed intrinsic rewards by augmenting positive navigation reward functions. The reward incorporates the agents internal states (e.g., initial velocity) and forward dynamics to differentiate safe from risky behavior. By integrating C-STEP with navigation rewards, we obtain an intrinsic reward function that jointly optimizes task completion and collision avoidance. Numerical results demonstrate fewer collisions, reduced proximity to obstacles, and only marginal increases in travel time. Overall, C-STEP offers an interpretable, physics-informed approach to reward shaping in RL, contributing to safety for agentic mobile robotic systems.
- Abstract(参考訳): 複雑な環境での安全なナビゲーションは、ロボット工学における強化学習(RL)の重要な課題である。
本稿では, 決定論的かつ連続的な領域に適したエージェント中心安全性の新たな尺度である, C-STEP(Continuous Space-Time Empowerment for Physics-informed)セーフRLを提案する。
この尺度は、正の航法報酬関数を増大させることで、物理インフォームドな固有報酬を設計するのに利用できる。
この報酬には、エージェントの内部状態(例えば初期速度)とフォワードダイナミクスが組み込まれ、安全と危険な振る舞いを区別する。
C-STEPとナビゲーション報酬を統合することで,タスク完了と衝突回避を協調的に最適化する本質的な報酬関数を得る。
数値計算の結果、衝突が少なく、障害物に近づき、旅行時間に限った増加しか示さなかった。
全体として、C-STEPは、RLの報酬形成のための解釈可能な物理インフォームドアプローチを提供し、エージェントモバイルロボットシステムの安全性に寄与する。
関連論文リスト
- SEA-Nav: Efficient Policy Learning for Safe and Agile Quadruped Navigation in Cluttered Environments [16.354808611554805]
SEA-Navは四足歩行のための強化学習フレームワークである。
CBFベースのシールドは、安全な速度コマンドを出力するためにナビゲーションポリシーを制約する。
適応的な衝突再現機構と有害な探索報酬を導入し、学習の確率を高める。
論文 参考訳(メタデータ) (2026-03-10T10:13:49Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - Balancing Progress and Safety: A Novel Risk-Aware Objective for RL in Autonomous Driving [10.950036191948605]
強化学習(Reinforcement Learning, RL)は、堅牢な意思決定能力によって自律運転を実現するための有望なアプローチである。
本稿では,2次元楕円形関数に基づく各種駆動相互作用に対するリスク認識手法を提案する。
交通密度の異なる無署名の交差点シナリオにおいて,提案した報奨の有効性を評価する。
論文 参考訳(メタデータ) (2025-05-10T19:05:03Z) - Designing Control Barrier Function via Probabilistic Enumeration for Safe Reinforcement Learning Navigation [55.02966123945644]
本稿では,ニューラルネットワーク検証技術を利用して制御障壁関数(CBF)とポリシー修正機構の設計を行う階層型制御フレームワークを提案する。
提案手法は,安全なCBFベースの制御層を構築するために使用される,安全でない操作領域を特定するための確率的列挙に依存する。
これらの実験は、効率的なナビゲーション動作を維持しながら、安全でない動作を補正する提案手法の能力を実証するものである。
論文 参考訳(メタデータ) (2025-04-30T13:47:25Z) - SafeCast: Risk-Responsive Motion Forecasting for Autonomous Vehicles [12.607007386467329]
リスク応答型モーション予測モデルであるSafeCastを提案する。
安全を意識した意思決定と不確実性を意識した適応性を統合する。
我々のモデルは、軽量なアーキテクチャと低推論レイテンシを維持しながら、最先端(SOTA)の精度を実現する。
論文 参考訳(メタデータ) (2025-03-28T15:38:21Z) - Hierarchical Reinforcement Learning for Safe Mapless Navigation with Congestion Estimation [7.339743259039457]
本稿では,階層的強化学習(HRL)を利用した安全な地図レスナビゲーションフレームワークを提案する。
その結果,HRLに基づくナビゲーションフレームワークは静的シナリオと動的シナリオの両方で優れていることがわかった。
本研究では,物理的な検証実験を行うために,TurtleBot3ロボット上にHRLベースのナビゲーションフレームワークを実装した。
論文 参考訳(メタデータ) (2025-03-15T08:03:50Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。