論文の概要: Generating and Evolving Reward Functions for Highway Driving with Large Language Models
- arxiv url: http://arxiv.org/abs/2406.10540v1
- Date: Sat, 15 Jun 2024 07:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 23:53:14.338722
- Title: Generating and Evolving Reward Functions for Highway Driving with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた高速道路走行のための逆関数の生成と発展
- Authors: Xu Han, Qiannan Yang, Xianda Chen, Xiaowen Chu, Meixin Zhu,
- Abstract要約: 強化学習(RL)は自動運転技術の進歩において重要な役割を担っている。
本稿では,大規模言語モデル(LLM)をRLと統合し,自律運転における報酬関数設計を改善する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.464822261908562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) plays a crucial role in advancing autonomous driving technologies by maximizing reward functions to achieve the optimal policy. However, crafting these reward functions has been a complex, manual process in many practices. To reduce this complexity, we introduce a novel framework that integrates Large Language Models (LLMs) with RL to improve reward function design in autonomous driving. This framework utilizes the coding capabilities of LLMs, proven in other areas, to generate and evolve reward functions for highway scenarios. The framework starts with instructing LLMs to create an initial reward function code based on the driving environment and task descriptions. This code is then refined through iterative cycles involving RL training and LLMs' reflection, which benefits from their ability to review and improve the output. We have also developed a specific prompt template to improve LLMs' understanding of complex driving simulations, ensuring the generation of effective and error-free code. Our experiments in a highway driving simulator across three traffic configurations show that our method surpasses expert handcrafted reward functions, achieving a 22% higher average success rate. This not only indicates safer driving but also suggests significant gains in development productivity.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、最適政策を達成するために報酬関数を最大化し、自律運転技術の進歩において重要な役割を担っている。
しかしながら、これらの報酬関数を作成することは、多くのプラクティスにおいて、複雑で手動のプロセスである。
この複雑さを軽減するために,大規模言語モデル(LLM)をRLと統合し,自律運転における報酬関数設計を改善する新しいフレームワークを提案する。
このフレームワークは、他の分野で証明されたLLMのコーディング機能を利用して、ハイウェイシナリオの報酬関数を生成し、進化させる。
フレームワークは、駆動環境とタスク記述に基づいて、初期報酬関数コードを作成するようにLLMに指示することから始まる。
このコードは、RLトレーニングとLLMのリフレクションを含む反復サイクルによって洗練され、出力をレビューし改善する能力の恩恵を受ける。
また、複雑な運転シミュレーションに対するLCMの理解を改善するための特別なプロンプトテンプレートを開発し、有効かつエラーのないコードを生成することを保証する。
高速道路走行シミュレータを用いた実験により,提案手法は熟練手作り報酬関数を超越し,平均成功率22%を達成できた。
これは安全な運転を示すだけでなく、開発生産性も大幅に向上することを示している。
関連論文リスト
- TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - LearningFlow: Automated Policy Learning Workflow for Urban Driving with Large Language Models [10.425038112892922]
我々は都市部での運転に適した革新的な自動ポリシー学習ワークフローであるLearningFlowを紹介した。
このフレームワークは、強化学習(RL)トレーニングプロセスを通して、複数の大規模言語モデル(LLM)エージェントの協調を活用している。
一連の複雑な運転タスク間でポリシー学習を自動化し、手動報酬関数設計への依存を著しく低減する。
論文 参考訳(メタデータ) (2025-01-09T08:28:16Z) - VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving [1.3107174618549584]
自動運転政策を学習するための強化学習(RL)に基づく手法は、自動運転コミュニティにおいて注目を集めている。
従来のRLアプローチは手作業による報酬に依存しており、それは広範囲の人的努力を必要とし、しばしば一般化性に欠ける。
我々は、事前訓練された視覚言語モデル(VLM)とRLを統合して報酬信号を生成する統合フレームワークである textbfVLM-RL を提案する。
論文 参考訳(メタデータ) (2024-12-20T04:08:11Z) - Human-centric Reward Optimization for Reinforcement Learning-based Automated Driving using Large Language Models [15.11759379703718]
現在の強化学習(RL)ベースの自動運転(AD)エージェントにおける重要な課題の1つは、柔軟で正確で人間らしい振る舞いをコスト効率よく達成することである。
本稿では,大規模言語モデル(LLM)を用いて,人間中心の方法でRL報酬関数を直感的かつ効果的に最適化する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-05-07T09:04:52Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Self-Refined Large Language Model as Automated Reward Function Designer
for Deep Reinforcement Learning in Robotics [14.773498542408264]
大規模言語モデル(LLM)は、深い常識の知識を必要とするタスクに対応するために広く採用されている。
本稿では,自動報酬関数設計のための自己補充機構を備えた新しいLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T02:56:56Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Comprehensive Training and Evaluation on Deep Reinforcement Learning for
Automated Driving in Various Simulated Driving Maneuvers [0.4241054493737716]
本研究では、DQN(Deep Q-networks)とTRPO(Trust Region Policy Optimization)の2つのDRLアルゴリズムの実装、評価、比較を行う。
設計されたComplexRoads環境で訓練されたモデルは、他の運転操作にうまく適応でき、全体的な性能が期待できる。
論文 参考訳(メタデータ) (2023-06-20T11:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。