Fugu-MT 論文翻訳(概要): LearningFlow: Automated Policy Learning Workflow for Urban Driving with Large Language Models

論文の概要: LearningFlow: Automated Policy Learning Workflow for Urban Driving with Large Language Models

arxiv url: http://arxiv.org/abs/2501.05057v1
Date: Thu, 09 Jan 2025 08:28:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-10 17:34:41.437831
Title: LearningFlow: Automated Policy Learning Workflow for Urban Driving with Large Language Models
Title（参考訳）: LearningFlow: 大規模言語モデルによる都市走行のためのポリシー学習ワークフロー自動化
Authors: Zengqi Peng, Yubin Wang, Xu Han, Lei Zheng, Jun Ma,
Abstract要約: 我々は都市部での運転に適した革新的な自動ポリシー学習ワークフローであるLearningFlowを紹介した。このフレームワークは、強化学習(RL)トレーニングプロセスを通して、複数の大規模言語モデル(LLM)エージェントの協調を活用している。一連の複雑な運転タスク間でポリシー学習を自動化し、手動報酬関数設計への依存を著しく低減する。
参考スコア（独自算出の注目度）: 10.425038112892922
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in reinforcement learning (RL) demonstrate the significant potential in autonomous driving. Despite this promise, challenges such as the manual design of reward functions and low sample efficiency in complex environments continue to impede the development of safe and effective driving policies. To tackle these issues, we introduce LearningFlow, an innovative automated policy learning workflow tailored to urban driving. This framework leverages the collaboration of multiple large language model (LLM) agents throughout the RL training process. LearningFlow includes a curriculum sequence generation process and a reward generation process, which work in tandem to guide the RL policy by generating tailored training curricula and reward functions. Particularly, each process is supported by an analysis agent that evaluates training progress and provides critical insights to the generation agent. Through the collaborative efforts of these LLM agents, LearningFlow automates policy learning across a series of complex driving tasks, and it significantly reduces the reliance on manual reward function design while enhancing sample efficiency. Comprehensive experiments are conducted in the high-fidelity CARLA simulator, along with comparisons with other existing methods, to demonstrate the efficacy of our proposed approach. The results demonstrate that LearningFlow excels in generating rewards and curricula. It also achieves superior performance and robust generalization across various driving tasks, as well as commendable adaptation to different RL algorithms.
Abstract（参考訳）: 強化学習(RL)の最近の進歩は、自律運転における大きな可能性を示している。この約束にもかかわらず、報酬関数の手動設計や複雑な環境でのサンプル効率の低さといった課題は、安全で効果的な運転ポリシーの開発を妨げ続けている。これらの問題に対処するために、都市部での運転に適した革新的な自動ポリシー学習ワークフローであるLearningFlowを紹介した。このフレームワークは、RLトレーニングプロセスを通して、複数の大規模言語モデル(LLM)エージェントの協調を活用している。 LearningFlowには、カリキュラムシーケンス生成プロセスと報酬生成プロセスが含まれており、このプロセスは、調整されたトレーニングカリキュラムと報酬関数を生成することにより、RLポリシーをガイドする。特に、各プロセスは、トレーニングの進捗を評価し、生成エージェントに重要な洞察を提供する分析エージェントによって支援される。これらのLLMエージェントの協調作業を通じて、LearningFlowは、一連の複雑な運転タスクにわたるポリシー学習を自動化し、サンプル効率を高めながら手動報酬関数設計への依存を著しく低減する。提案手法の有効性を示すため,高忠実度CARLAシミュレータにおいて,既存手法との比較とともに総合的な実験を行った。結果は、LearningFlowが報酬とカリキュラムを生成するのに優れていることを示している。また、様々な駆動タスクに対して優れた性能とロバストな一般化を実現し、異なるRLアルゴリズムへの順応性を実現している。

関連論文リスト

SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks [2.3031174164121127]
本稿では,RLエージェントにインセンティブを与える報酬関数群を提案する。学習過程における報酬関数を動的に更新する適応型報酬生成手法を開発した。様々なRLに基づくロボットタスクの実験結果から,提案手法が様々なRLアルゴリズムと互換性があることが示されている。
論文参考訳（メタデータ） (2024-12-14T18:04:18Z)
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning [53.8293458872774]
本稿では,RLDG(Reinforcement Learning Distilled Generalists)を提案する。我々は、RL生成データで訓練されたジェネラリストポリシーが、人間の実演で訓練された者より一貫して優れていたことを実証する。以上の結果から,タスク固有RLと一般政策蒸留を組み合わせることで,より有能で効率的なロボット操作システムの開発が期待できる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-13T04:57:55Z)
Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
Generating and Evolving Reward Functions for Highway Driving with Large Language Models [18.464822261908562]
強化学習(RL)は自動運転技術の進歩において重要な役割を担っている。本稿では,大規模言語モデル(LLM)をRLと統合し,自律運転における報酬関数設計を改善する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-15T07:50:10Z)
Human-centric Reward Optimization for Reinforcement Learning-based Automated Driving using Large Language Models [15.11759379703718]
現在の強化学習(RL)ベースの自動運転(AD)エージェントにおける重要な課題の1つは、柔軟で正確で人間らしい振る舞いをコスト効率よく達成することである。本稿では,大規模言語モデル(LLM)を用いて,人間中心の方法でRL報酬関数を直感的かつ効果的に最適化する革新的な手法を提案する。
論文参考訳（メタデータ） (2024-05-07T09:04:52Z)
SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文参考訳（メタデータ） (2024-01-29T10:01:10Z)
CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。 CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-19T01:45:29Z)
A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文参考訳（メタデータ） (2021-09-22T16:03:29Z)
Hierarchical Program-Triggered Reinforcement Learning Agents For Automated Driving [5.404179497338455]
Reinforcement Learning(RL)とDeep Learning(DL)の最近の進歩は、自動運転を含む複雑なタスクで印象的なパフォーマンスを示しています。本稿では,構造化プログラムと複数のrlエージェントからなる階層構造を用いて,比較的単純なタスクを実行するように訓練した階層型プログラムトリガー型強化学習法を提案する。検証の焦点はRLエージェントからの単純な保証の下でマスタープログラムにシフトし、複雑なRLエージェントよりも解釈可能で検証可能な実装となる。
論文参考訳（メタデータ） (2021-03-25T14:19:54Z)
Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文参考訳（メタデータ） (2020-04-24T15:48:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。