論文の概要: VL-SAFE: Vision-Language Guided Safety-Aware Reinforcement Learning with World Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.16377v1
- Date: Thu, 22 May 2025 08:29:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.150124
- Title: VL-SAFE: Vision-Language Guided Safety-Aware Reinforcement Learning with World Models for Autonomous Driving
- Title(参考訳): VL-SAFE: 自律運転のための世界モデルを用いた安全意識強化学習
- Authors: Yansong Qu, Zilin Huang, Zihao Sheng, Jiancong Chen, Sikai Chen, Samuel Labi,
- Abstract要約: 強化学習(RL)に基づく自律運転政策学習は、限界に直面している。
RLはしばしば複雑な運転コンテキストにおける「安全」の意味の真の意味をつかむのに失敗する。
本稿では,VLM(Vision-Language Model)-as-as-safety-guidanceパラダイムを用いた世界モデルベースの安全なRLフレームワークであるVL-SAFEを提案する。
- 参考スコア(独自算出の注目度): 1.9242820889313577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL)-based autonomous driving policy learning faces critical limitations such as low sample efficiency and poor generalization; its reliance on online interactions and trial-and-error learning is especially unacceptable in safety-critical scenarios. Existing methods including safe RL often fail to capture the true semantic meaning of "safety" in complex driving contexts, leading to either overly conservative driving behavior or constraint violations. To address these challenges, we propose VL-SAFE, a world model-based safe RL framework with Vision-Language model (VLM)-as-safety-guidance paradigm, designed for offline safe policy learning. Specifically, we construct offline datasets containing data collected by expert agents and labeled with safety scores derived from VLMs. A world model is trained to generate imagined rollouts together with safety estimations, allowing the agent to perform safe planning without interacting with the real environment. Based on these imagined trajectories and safety evaluations, actor-critic learning is conducted under VLM-based safety guidance to optimize the driving policy more safely and efficiently. Extensive evaluations demonstrate that VL-SAFE achieves superior sample efficiency, generalization, safety, and overall performance compared to existing baselines. To the best of our knowledge, this is the first work that introduces a VLM-guided world model-based approach for safe autonomous driving. The demo video and code can be accessed at: https://ys-qu.github.io/vlsafe-website/
- Abstract(参考訳): 強化学習(RL)に基づく自律運転政策学習は、サンプル効率の低下や一般化の低さなど、重要な制約に直面している。
安全なRLを含む既存の手法は、複雑な運転コンテキストにおける「安全」の意味の真の意味を捉えるのに失敗することが多く、過度に保守的な運転行動や制約違反をもたらす。
これらの課題に対処するために,視覚言語モデル(VLM)を用いた世界モデルベースの安全なRLフレームワークであるVL-SAFEを提案する。
具体的には、専門家が収集したデータを含むオフラインデータセットを構築し、VLMから得られる安全性スコアをラベル付けする。
ワールドモデルは、シミュレーションされたロールアウトと安全性推定を同時に生成するように訓練されており、エージェントは実際の環境と対話することなく安全な計画を実行することができる。
これらの軌道と安全評価に基づいて, VLMに基づく安全指導の下でアクター批判学習を行い, より安全かつ効率的に運転方針を最適化する。
VL-SAFEは, 既存のベースラインと比較して, 試料効率, 一般化, 安全性, 全体的な性能に優れることを示した。
私たちの知る限りでは、安全自動運転のためのVLM誘導の世界モデルベースのアプローチを導入するのはこれが初めてです。
デモビデオとコードは、 https://ys-qu.github.io/vlsafe-website/でアクセスできます。
関連論文リスト
- SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Safe Reinforcement Learning [10.844235123282056]
視覚言語アクションモデル(VLA)に安全性を統合する新しいアルゴリズムであるSafeVLAを提案する。
SafeVLAは、シミュレーション環境で大規模な制約付き学習を採用することで、安全性とタスクパフォーマンスのバランスをとる。
SafeVLAは安全性とタスク性能の両方において最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-05T13:16:55Z) - CurricuVLM: Towards Safe Autonomous Driving via Personalized Safety-Critical Curriculum Learning with Vision-Language Models [1.6612510324510592]
CurricuVLMは、自律運転エージェントのためのパーソナライズされたカリキュラム学習を可能にする新しいフレームワークである。
我々のアプローチでは、エージェントの動作を分析し、パフォーマンスの弱点を特定し、動的に調整されたトレーニングシナリオを生成するために、視覚言語モデル(VLM)を利用する。
CurricuVLMは、通常のシナリオと安全クリティカルなシナリオの両方において、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-21T00:42:40Z) - ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - FOSP: Fine-tuning Offline Safe Policy through World Models [3.7971075341023526]
オフラインセーフ強化学習(RL)は、静的データセットから学習し、探索を制限することで、安全性の制約に対処することを目指している。
本稿では、オフライン事前学習ポリシーをオンラインで微調整することで、視覚に基づくロボットタスクの展開時の安全性向上を図る。
論文 参考訳(メタデータ) (2024-07-06T03:22:57Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Safety-aware Causal Representation for Trustworthy Offline Reinforcement
Learning in Autonomous Driving [33.672722472758636]
オフライン強化学習(RL)アプローチは、オフラインデータセットからのシーケンシャルな意思決定問題に対処する上で、顕著な効果を示す。
一般化可能なエンドツーエンド駆動ポリシの学習を容易にするために,saFety-aware strUctured Scenario representation (Fusion)を導入した。
様々な運転シナリオにおける実証的な証拠は、フュージョンが自律運転エージェントの安全性と一般化性を著しく向上させることを証明している。
論文 参考訳(メタデータ) (2023-10-31T18:21:24Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - How to Learn from Risk: Explicit Risk-Utility Reinforcement Learning for
Efficient and Safe Driving Strategies [1.496194593196997]
本稿では,自動運転車の挙動を安全かつ効率的に解釈できるSafeDQNを提案する。
SafeDQNは様々なシナリオの解釈可能かつ安全な運転ポリシーを発見し、最先端の衛生技術がリスクと実用性の両方を評価するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2022-03-16T05:51:22Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。