論文の概要: VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving
- arxiv url: http://arxiv.org/abs/2412.15544v1
- Date: Fri, 20 Dec 2024 04:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:21:13.902331
- Title: VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving
- Title(参考訳): VLM-RL:安全な自動運転のための統一ビジョン言語モデルと強化学習フレームワーク
- Authors: Zilin Huang, Zihao Sheng, Yansong Qu, Junwei You, Sikai Chen,
- Abstract要約: 自動運転政策を学習するための強化学習(RL)に基づく手法は、自動運転コミュニティにおいて注目を集めている。
従来のRLアプローチは手作業による報酬に依存しており、それは広範囲の人的努力を必要とし、しばしば一般化性に欠ける。
我々は、事前訓練された視覚言語モデル(VLM)とRLを統合して報酬信号を生成する統合フレームワークである textbfVLM-RL を提案する。
- 参考スコア(独自算出の注目度): 1.3107174618549584
- License:
- Abstract: In recent years, reinforcement learning (RL)-based methods for learning driving policies have gained increasing attention in the autonomous driving community and have achieved remarkable progress in various driving scenarios. However, traditional RL approaches rely on manually engineered rewards, which require extensive human effort and often lack generalizability. To address these limitations, we propose \textbf{VLM-RL}, a unified framework that integrates pre-trained Vision-Language Models (VLMs) with RL to generate reward signals using image observation and natural language goals. The core of VLM-RL is the contrasting language goal (CLG)-as-reward paradigm, which uses positive and negative language goals to generate semantic rewards. We further introduce a hierarchical reward synthesis approach that combines CLG-based semantic rewards with vehicle state information, improving reward stability and offering a more comprehensive reward signal. Additionally, a batch-processing technique is employed to optimize computational efficiency during training. Extensive experiments in the CARLA simulator demonstrate that VLM-RL outperforms state-of-the-art baselines, achieving a 10.5\% reduction in collision rate, a 104.6\% increase in route completion rate, and robust generalization to unseen driving scenarios. Furthermore, VLM-RL can seamlessly integrate almost any standard RL algorithms, potentially revolutionizing the existing RL paradigm that relies on manual reward engineering and enabling continuous performance improvements. The demo video and code can be accessed at: https://zilin-huang.github.io/VLM-RL-website.
- Abstract(参考訳): 近年,運転方針学習のための強化学習(RL)に基づく手法が,自動運転コミュニティにおいて注目され,様々な運転シナリオにおいて顕著な進歩を遂げている。
しかし、従来のRLアプローチは手作業による報酬に依存しており、それは広範囲の人的努力を必要とし、しばしば一般化性に欠ける。
これらの制約に対処するために,事前学習された視覚言語モデル(VLM)をRLと統合し,画像観察と自然言語の目標を用いた報酬信号を生成する統合フレームワークである \textbf{VLM-RL} を提案する。
VLM-RLのコアはコントラスト言語目標(CLG)-as-rewardパラダイムであり、肯定的および否定的な言語目標を使用して意味的な報酬を生成する。
さらに、CLGに基づくセマンティック報酬と車両状態情報を組み合わせた階層的な報酬合成手法を導入し、報酬安定性を改善し、より包括的な報酬信号を提供する。
さらに、訓練中の計算効率を最適化するためにバッチ処理技術が用いられている。
CARLAシミュレータの大規模な実験により、VLM-RLは最先端のベースラインより優れ、10.5倍の衝突率、104.6倍の経路完了率、そして見えない運転シナリオへの堅牢な一般化を実現している。
さらに、VLM-RLはほとんどの標準RLアルゴリズムをシームレスに統合することができ、手動の報酬工学に依存し、継続的なパフォーマンス改善を可能にする既存のRLパラダイムに革命をもたらす可能性がある。
デモビデオとコードは、https://zilin-huang.github.io/VLM-RL-website.comでアクセスすることができる。
関連論文リスト
- Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies [12.599164162404994]
本研究では,Large Language Models(LLMs)の文脈内学習と推論機能を活用した自動報酬生成パラダイムを提案する。
提案するLLM拡張RLパラダイムの実現可能性を評価するため,合成単線システムや実世界の多線システムなど,様々なバス保持制御シナリオに適用した。
論文 参考訳(メタデータ) (2024-10-14T07:10:16Z) - Generating and Evolving Reward Functions for Highway Driving with Large Language Models [18.464822261908562]
強化学習(RL)は自動運転技術の進歩において重要な役割を担っている。
本稿では,大規模言語モデル(LLM)をRLと統合し,自律運転における報酬関数設計を改善する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-15T07:50:10Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Code as Reward: Empowering Reinforcement Learning with VLMs [37.862999288331906]
本稿では,事前学習した視覚言語モデルから高密度報酬関数を生成するために,Code as Reward (VLM-CaR) というフレームワークを提案する。
VLM-CaRは、VLMを直接クエリする際の計算負担を大幅に削減する。
このアプローチによって生成される高密度な報酬は、様々な離散的かつ連続的な環境において非常に正確であることを示す。
論文 参考訳(メタデータ) (2024-02-07T11:27:45Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。