論文の概要: Are LLMs The Way Forward? A Case Study on LLM-Guided Reinforcement Learning for Decentralized Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.12751v1
- Date: Sun, 16 Nov 2025 19:31:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.518427
- Title: Are LLMs The Way Forward? A Case Study on LLM-Guided Reinforcement Learning for Decentralized Autonomous Driving
- Title(参考訳): LLMは先進的か? 分散型自動運転のためのLLM誘導強化学習の事例研究
- Authors: Timur Anvar, Jeffrey Chen, Yuyan Wang, Rohan Chandra,
- Abstract要約: 小規模でローカルに展開されたLarge Language Models (LLMs) は、直接制御ではなく報酬形成を通じて自動運転を支援することができる。
RLのみ, LLMのみ, ハイブリッドアプローチの比較を行った。
以上の結果から,RLのみのエージェントは適度な効率で適度な成功率(73-89%)を達成でき,LSMのみのエージェントは高い成功率(最大94%)を達成できた。
- 参考スコア(独自算出の注目度): 9.255259913388096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous vehicle navigation in complex environments such as dense and fast-moving highways and merging scenarios remains an active area of research. A key limitation of RL is its reliance on well-specified reward functions, which often fail to capture the full semantic and social complexity of diverse, out-of-distribution situations. As a result, a rapidly growing line of research explores using Large Language Models (LLMs) to replace or supplement RL for direct planning and control, on account of their ability to reason about rich semantic context. However, LLMs present significant drawbacks: they can be unstable in zero-shot safety-critical settings, produce inconsistent outputs, and often depend on expensive API calls with network latency. This motivates our investigation into whether small, locally deployed LLMs (< 14B parameters) can meaningfully support autonomous highway driving through reward shaping rather than direct control. We present a case study comparing RL-only, LLM-only, and hybrid approaches, where LLMs augment RL rewards by scoring state-action transitions during training, while standard RL policies execute at test time. Our findings reveal that RL-only agents achieve moderate success rates (73-89%) with reasonable efficiency, LLM-only agents can reach higher success rates (up to 94%) but with severely degraded speed performance, and hybrid approaches consistently fall between these extremes. Critically, despite explicit efficiency instructions, LLM-influenced approaches exhibit systematic conservative bias with substantial model-dependent variability, highlighting important limitations of current small LLMs for safety-critical control tasks.
- Abstract(参考訳): 密集した高速道路や合併シナリオのような複雑な環境での自動運転車のナビゲーションは研究の活発な領域として残っている。
RLの鍵となる制限は、よく特定された報酬関数に依存することである。
その結果、言語モデル(LLM)を用いて、リッチなセマンティックコンテキストを推論する能力を考慮して、RLを代替または補足する研究が急速に進んでいる。
ゼロショットセーフティクリティカルな設定で不安定になり、一貫性のない出力を生成し、しばしばネットワーク遅延を伴う高価なAPI呼び出しに依存する。
このことは、ローカルに展開された小さなLSM(14Bパラメータ)が、直接制御ではなく報酬形成を通じて自律走行を有意義に支援できるかどうかを調査する動機となっている。
本稿では,LLのみ,LLMのみ,ハイブリッドアプローチを比較したケーススタディとして,LLMがトレーニング中の状態-動作遷移を評価することでRLの報酬を増大させる一方で,標準のRLポリシーはテスト時に実行されます。
以上の結果から,RLのみのエージェントは適度な効率で適度な成功率(73-89%)を達成でき,LSMのみのエージェントは高い成功率(最大94%)を達成できた。
批判的なことに、LLMに影響を及ぼすアプローチは、明確な効率の指示にもかかわらず、モデル依存の変数を持つ体系的な保守的バイアスを示し、安全クリティカルな制御タスクに対する現在の小さなLLMの重要な制限を強調している。
関連論文リスト
- RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - HCRMP: A LLM-Hinted Contextual Reinforcement Learning Framework for Autonomous Driving [4.340881027724334]
強化学習(RL)を備えた大規模言語モデル(LLM)は、複雑なシナリオにおける自律運転(AD)のパフォーマンスを向上させることができる。
現状のLCMは、本質的な運転関連タスクで評価された場合、約57.95%の非幻覚率を示す。
本稿では,LLMとRLの相対的な独立性を維持することが幻覚問題の解決に不可欠であると主張している。
論文 参考訳(メタデータ) (2025-05-21T17:47:24Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。