論文の概要: REvolve: Reward Evolution with Large Language Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2406.01309v1
- Date: Mon, 3 Jun 2024 13:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 23:09:15.599140
- Title: REvolve: Reward Evolution with Large Language Models for Autonomous Driving
- Title(参考訳): Revolve: 自律運転のための大規模言語モデルによるリワード進化
- Authors: Rishi Hazra, Alkis Sygkounas, Andreas Persson, Amy Loutfi, Pedro Zuidberg Dos Martires,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語のタスク記述から報酬を生成するために使われてきた。
本稿では、自律運転における報酬設計にLLMを使用する進化的フレームワークであるRevolveを紹介する。
我々は、Revolve-Designed rewardsで訓練されたエージェントが人間の運転基準と密接に一致していることを示し、その結果、他の最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 6.4550546442058225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing effective reward functions is crucial to training reinforcement learning (RL) algorithms. However, this design is non-trivial, even for domain experts, due to the subjective nature of certain tasks that are hard to quantify explicitly. In recent works, large language models (LLMs) have been used for reward generation from natural language task descriptions, leveraging their extensive instruction tuning and commonsense understanding of human behavior. In this work, we hypothesize that LLMs, guided by human feedback, can be used to formulate human-aligned reward functions. Specifically, we study this in the challenging setting of autonomous driving (AD), wherein notions of "good" driving are tacit and hard to quantify. To this end, we introduce REvolve, an evolutionary framework that uses LLMs for reward design in AD. REvolve creates and refines reward functions by utilizing human feedback to guide the evolution process, effectively translating implicit human knowledge into explicit reward functions for training (deep) RL agents. We demonstrate that agents trained on REvolve-designed rewards align closely with human driving standards, thereby outperforming other state-of-the-art baselines.
- Abstract(参考訳): 効果的な報酬関数の設計は、強化学習(RL)アルゴリズムの訓練に不可欠である。
しかし、この設計は、明確に定量化が難しい特定のタスクの主観的な性質のため、ドメインの専門家にとっても、簡単ではない。
近年,大規模言語モデル (LLM) は自然言語のタスク記述から報酬を生成するために用いられ,その広範囲な指導チューニングと人間の行動の常識的理解を活用している。
本研究では,人間からのフィードバックによって導かれるLLMが,人間による報酬関数の定式化に有効である,という仮説を立てる。
具体的には、これを「良い」運転の概念が暗黙的で定量化が難しい自律運転(AD)の挑戦的な設定で研究する。
この目的のために,AD における報酬設計に LLM を用いる進化的フレームワークである Revolve を紹介する。
Revolveは人間のフィードバックを利用して報酬関数を作成し、進化過程をガイドし、暗黙の人間の知識を訓練(深い)RLエージェントの明確な報酬関数に効果的に翻訳する。
我々は、Revolve-Designed rewardsで訓練されたエージェントが人間の運転基準と密接に一致していることを示し、その結果、他の最先端のベースラインを上回っている。
関連論文リスト
- A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning [25.82540393199001]
CARDは報酬関数コードを反復的に生成し改善するリワードデザインフレームワークである。
CARDにはコードの生成と検証を行うCoderが含まれており、Evaluatorはコードを改善するためにCoderをガイドする動的なフィードバックを提供する。
論文 参考訳(メタデータ) (2024-10-18T17:51:51Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Human-centric Reward Optimization for Reinforcement Learning-based Automated Driving using Large Language Models [15.11759379703718]
現在の強化学習(RL)ベースの自動運転(AD)エージェントにおける重要な課題の1つは、柔軟で正確で人間らしい振る舞いをコスト効率よく達成することである。
本稿では,大規模言語モデル(LLM)を用いて,人間中心の方法でRL報酬関数を直感的かつ効果的に最適化する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-05-07T09:04:52Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - Eureka: Human-Level Reward Design via Coding Large Language Models [121.91007140014982]
大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。
LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提案する。
Eurekaは、最先端のLLMの目覚ましいゼロショット生成、コード書き、コンテキスト内改善機能を利用する。
論文 参考訳(メタデータ) (2023-10-19T17:31:01Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。