論文の概要: HCRMP: A LLM-Hinted Contextual Reinforcement Learning Framework for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.15793v1
- Date: Wed, 21 May 2025 17:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.812562
- Title: HCRMP: A LLM-Hinted Contextual Reinforcement Learning Framework for Autonomous Driving
- Title(参考訳): HCRMP: 自動運転のためのLLM型コンテキスト強化学習フレームワーク
- Authors: Zhiwen Chen, Bo Leng, Zhuoren Li, Hanming Deng, Guizhe Jin, Ran Yu, Huanxi Wen,
- Abstract要約: 強化学習(RL)を備えた大規模言語モデル(LLM)は、複雑なシナリオにおける自律運転(AD)のパフォーマンスを向上させることができる。
しかし、現在のRL法はLLM出力に過剰に依存しており、幻覚を起こす傾向にある。
本稿では,幻覚の問題を解決するためのLLM-Hinted RLパラダイムを提案する。
- 参考スコア(独自算出の注目度): 4.340881027724334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating Large Language Models (LLMs) with Reinforcement Learning (RL) can enhance autonomous driving (AD) performance in complex scenarios. However, current LLM-Dominated RL methods over-rely on LLM outputs, which are prone to hallucinations.Evaluations show that state-of-the-art LLM indicates a non-hallucination rate of only approximately 57.95% when assessed on essential driving-related tasks. Thus, in these methods, hallucinations from the LLM can directly jeopardize the performance of driving policies. This paper argues that maintaining relative independence between the LLM and the RL is vital for solving the hallucinations problem. Consequently, this paper is devoted to propose a novel LLM-Hinted RL paradigm. The LLM is used to generate semantic hints for state augmentation and policy optimization to assist RL agent in motion planning, while the RL agent counteracts potential erroneous semantic indications through policy learning to achieve excellent driving performance. Based on this paradigm, we propose the HCRMP (LLM-Hinted Contextual Reinforcement Learning Motion Planner) architecture, which is designed that includes Augmented Semantic Representation Module to extend state space. Contextual Stability Anchor Module enhances the reliability of multi-critic weight hints by utilizing information from the knowledge base. Semantic Cache Module is employed to seamlessly integrate LLM low-frequency guidance with RL high-frequency control. Extensive experiments in CARLA validate HCRMP's strong overall driving performance. HCRMP achieves a task success rate of up to 80.3% under diverse driving conditions with different traffic densities. Under safety-critical driving conditions, HCRMP significantly reduces the collision rate by 11.4%, which effectively improves the driving performance in complex scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)と強化学習(RL)を統合することで、複雑なシナリオにおける自律運転(AD)のパフォーマンスを向上させることができる。
しかし,現在のLLM-Dominated RL法は幻覚の傾向が強いLCM出力に過度に依存しており,本質的な運転関連タスクで評価された場合,その非幻覚率は約57.95%であることを示す評価結果が得られた。
このようにして、LLMからの幻覚は、駆動ポリシーの性能を直接的に損なうことができる。
本稿では,LLMとRLの相対的な独立性を維持することが幻覚問題の解決に不可欠であると主張している。
そこで本研究では,LLM-Hinted RLパラダイムを提案する。
LLMは、状態拡張とポリシー最適化のためのセマンティックヒントを生成するために使用され、RLエージェントはポリシー学習を通じて潜在的誤意味指示に対処し、優れた駆動性能を達成する。
このパラダイムに基づいて、状態空間を拡張するための拡張セマンティック表現モジュールを含むHCRMPアーキテクチャ(LLM-Hinted Contextual Reinforcement Learning Motion Planner)を提案する。
コンテキスト安定アンカーモジュールは、知識ベースからの情報を活用することにより、多点重みヒントの信頼性を高める。
セマンティックキャッシュモジュールはLLM低周波誘導とRL高周波制御をシームレスに統合するために使用される。
CARLAにおける大規模な実験は、HCRMPの全体的な運転性能の強さを検証している。
HCRMPは、交通密度の異なる様々な運転条件下で、最大80.3%のタスク成功率を達成する。
安全クリティカルな運転条件下では、HCRMPは衝突速度を11.4%減少させ、複雑なシナリオにおける運転性能を効果的に向上させる。
関連論文リスト
- RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - CoT-Drive: Efficient Motion Forecasting for Autonomous Driving with LLMs and Chain-of-Thought Prompting [14.567180355849501]
CoT-Driveは,大規模言語モデル(LLM)とチェーン・オブ・シークレット(CoT)プロンプト手法を活用することで,動き予測を強化する新しい手法である。
我々は,LLMの高度なシーン理解能力を軽量言語モデル(LM)に効果的に伝達する,教師による知識蒸留戦略を導入する。
本稿では,文脈固有の意味アノテーションを生成するための軽量なLMを微調整するための2つのシーン記述データセットであるHighway-TextとUrban-Textを提案する。
論文 参考訳(メタデータ) (2025-03-10T12:17:38Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - OWLed: Outlier-weighed Layerwise Pruning for Efficient Autonomous Driving Framework [3.8320050452121692]
本稿では,効率的な自律運転フレームワーク Outlier-Weighed Layerwise Pruning であるOWLedを紹介する。
提案手法は,外乱特性の分布に基づいて,異なる層に対して一様でない空間比を割り当てる。
圧縮モデルが自律運転タスクに適合するようにするため、運転環境データをキャリブレーションとプルーニングの両方に組み込む。
論文 参考訳(メタデータ) (2024-11-12T10:55:30Z) - Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving [41.87011820577736]
本稿では、政治強化学習エージェントを学習するための新しいフレームワークであるRAPIDを紹介する。
LLMベースの運転エージェントで合成されたデータとオンライン適応を用いて、警察のRLエージェントを専門に訓練する。
異なるタスクへの適応性を維持しながら、LLM知識の堅牢性を低減する。
論文 参考訳(メタデータ) (2024-10-16T13:43:00Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving [84.31119464141631]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。