論文の概要: Optimizing Autonomous Driving for Safety: A Human-Centric Approach with LLM-Enhanced RLHF
- arxiv url: http://arxiv.org/abs/2406.04481v1
- Date: Thu, 6 Jun 2024 20:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:07:23.112700
- Title: Optimizing Autonomous Driving for Safety: A Human-Centric Approach with LLM-Enhanced RLHF
- Title(参考訳): 安全のための自動運転の最適化:LLM強化RLHFを用いた人間中心アプローチ
- Authors: Yuan Sun, Navid Salami Pargoo, Peter J. Jin, Jorge Ortiz,
- Abstract要約: RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)で人気がある。
RLHFは通常、微調整のステップで適用され、直接の「推奨」を必要とする。
ニュージャージー州とニューヨーク市にある実生活テストベッドから収集したデータを用いて、我々のモデルを検証します。
- 参考スコア(独自算出の注目度): 2.499371729440073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is popular in large language models (LLMs), whereas traditional Reinforcement Learning (RL) often falls short. Current autonomous driving methods typically utilize either human feedback in machine learning, including RL, or LLMs. Most feedback guides the car agent's learning process (e.g., controlling the car). RLHF is usually applied in the fine-tuning step, requiring direct human "preferences," which are not commonly used in optimizing autonomous driving models. In this research, we innovatively combine RLHF and LLMs to enhance autonomous driving safety. Training a model with human guidance from scratch is inefficient. Our framework starts with a pre-trained autonomous car agent model and implements multiple human-controlled agents, such as cars and pedestrians, to simulate real-life road environments. The autonomous car model is not directly controlled by humans. We integrate both physical and physiological feedback to fine-tune the model, optimizing this process using LLMs. This multi-agent interactive environment ensures safe, realistic interactions before real-world application. Finally, we will validate our model using data gathered from real-life testbeds located in New Jersey and New York City.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は大規模言語モデル (LLM) で人気があるが、従来のReinforcement Learning (RL) は不足することが多い。
現在の自律運転法は、通常、RLやLLMを含む機械学習における人間のフィードバックを利用する。
ほとんどのフィードバックは、車のエージェントの学習プロセス(例えば、車の制御)を導く。
通常、RLHFは微調整のステップで適用され、自律運転モデルの最適化に一般的には使われない直接の「推論」を必要とする。
本研究では、RLHFとLLMを革新的に組み合わせ、自動運転の安全性を高める。
人的指導をゼロからトレーニングするのは非効率です。
我々のフレームワークは、訓練済みの自動運転車エージェントモデルから始まり、車や歩行者などの複数の人間制御エージェントを実装し、実際の道路環境をシミュレートする。
自動走行車は人間が直接制御するものではない。
物理的フィードバックと生理的フィードバックを統合してモデルを微調整し、LLMを用いてこのプロセスを最適化する。
このマルチエージェントのインタラクティブ環境は、現実世界のアプリケーションの前に安全で現実的なインタラクションを保証する。
最後に、ニュージャージー州とニューヨーク市にある実生活テストベッドから収集したデータを用いて、我々のモデルを検証します。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Sparse Rewards Can Self-Train Dialogue Agents [22.799506097310008]
我々は,LLMエージェントに対して,外部からのフィードバックを伴わずに,自律的にパフォーマンスを向上させるための新たな自己改善パラダイムを導入する。
我々はMultiWOZから派生したスパース報酬ツール呼び出しシミュレーション環境であるToolWOZを提案する。
JOSHでトレーニングされたモデルは、小規模でもフロンティアでも、ツールベースのインタラクションを大幅に改善し、さまざまなベンチマークで一般的なモデル機能を保持します。
論文 参考訳(メタデータ) (2024-09-06T21:00:57Z) - MetaFollower: Adaptable Personalized Autonomous Car Following [63.90050686330677]
適応型パーソナライズされた自動車追従フレームワークであるMetaFollowerを提案する。
まず,モデルに依存しないメタラーニング(MAML)を用いて,様々なCFイベントから共通運転知識を抽出する。
さらに、Long Short-Term Memory (LSTM) と Intelligent Driver Model (IDM) を組み合わせて、時間的不均一性を高い解釈性で反映する。
論文 参考訳(メタデータ) (2024-06-23T15:30:40Z) - SELFI: Autonomous Self-Improvement with Reinforcement Learning for Social Navigation [54.97931304488993]
体験と対話し、改善する自己改善ロボットは、ロボットシステムの現実的な展開の鍵となる。
本研究では,オンラインロボット体験を活用したオンライン学習手法であるSELFIを提案する。
本研究では, 衝突回避の観点からの改善と, より社会的に順応する行動について報告する。
論文 参考訳(メタデータ) (2024-03-01T21:27:03Z) - AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。
われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。
実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文 参考訳(メタデータ) (2024-01-23T18:45:54Z) - HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.807187711407621]
本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文 参考訳(メタデータ) (2024-01-06T08:30:14Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Incorporating Voice Instructions in Model-Based Reinforcement Learning
for Self-Driving Cars [12.716258111815312]
モデルに基づく深層強化学習に自然言語音声命令(NLI)を取り入れて自動運転車の訓練を行う。
その結果,NLIは学習プロセスの容易化とエージェントの学習速度の大幅な向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T10:55:39Z) - DDPG car-following model with real-world human driving experience in
CARLA [0.0]
そこで本研究では,現実世界の人間の運転から学習し,純粋なDRLエージェントよりも優れた性能を実現する2段階のDeep Reinforcement Learning(DRL)手法を提案する。
評価のために、提案した2段DRLエージェントと純粋なDRLエージェントを比較するために、異なる実世界の運転シナリオを設計した。
論文 参考訳(メタデータ) (2021-12-29T15:22:31Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。