論文の概要: ThinkDrive: Chain-of-Thought Guided Progressive Reinforcement Learning Fine-Tuning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2601.04714v1
- Date: Thu, 08 Jan 2026 08:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.109876
- Title: ThinkDrive: Chain-of-Thought Guided Progressive Reinforcement Learning Fine-Tuning for Autonomous Driving
- Title(参考訳): ThinkDrive: 自律運転のための改良型強化学習のためのチェーン・オブ・サード
- Authors: Chang Zhao, Zheming Yang, Yunqing Hu, Qi Guo, Zijian Wang, Pengcheng Li, Wen Ji,
- Abstract要約: 既存の手法は、非構造的推論、一般化の貧弱、そして人間の運転との不一致に悩まされている。
我々は,CoTガイドによる自律運転のためのプログレッシブRL微調整フレームワークであるThinkDriveを提案する。
その結果,ThinkDriveは,試験で1.45%,1.95%,1.01%,測定強度,精度でそれぞれ強いRLベースラインを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 14.981675960513606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of large language models (LLMs) technologies, their application in the domain of autonomous driving has become increasingly widespread. However, existing methods suffer from unstructured reasoning, poor generalization, and misalignment with human driving intent. While Chain-of-Thought (CoT) reasoning enhances decision transparency, conventional supervised fine-tuning (SFT) fails to fully exploit its potential, and reinforcement learning (RL) approaches face instability and suboptimal reasoning depth. We propose ThinkDrive, a CoT guided progressive RL fine-tuning framework for autonomous driving that synergizes explicit reasoning with difficulty-aware adaptive policy optimization. Our method employs a two-stage training strategy. First, we perform SFT using CoT explanations. Then, we apply progressive RL with a difficulty-aware adaptive policy optimizer that dynamically adjusts learning intensity based on sample complexity. We evaluate our approach on a public dataset. The results show that ThinkDrive outperforms strong RL baselines by 1.45%, 1.95%, and 1.01% on exam, easy-exam, and accuracy, respectively. Moreover, a 2B-parameter model trained with our method surpasses the much larger GPT-4o by 3.28% on the exam metric.
- Abstract(参考訳): 大規模言語モデル(LLM)技術の急速な進歩により、自律運転分野における彼らの応用はますます広まりつつある。
しかし、既存の手法は、非構造的推論、一般化の貧弱、人間の運転意図との相違に悩まされている。
チェーン・オブ・ソート(CoT)推論は意思決定の透明性を高めるが、従来の教師付き微調整(SFT)ではその可能性を完全に活用できず、強化学習(RL)では不安定性や最適下推論の深さにアプローチする。
我々は,CoTガイドによる自律運転のためのプログレッシブRL微調整フレームワークであるThinkDriveを提案する。
本手法は2段階の訓練戦略を用いる。
まず、CoT の説明を用いて SFT を実行する。
そこで,本研究では,サンプルの複雑さに基づいて学習強度を動的に調整する,難易度対応型ポリシオプティマイザを,プログレッシブRLに適用する。
パブリックデータセットに対する我々のアプローチを評価する。
その結果,ThinkDriveは,試験で1.45%,1.95%,1.01%,使い勝手,精度でそれぞれ高いRLベースラインを達成していることがわかった。
さらに,本手法で訓練した2Bパラメータモデルでは,試験基準において,GPT-4oよりも3.28%大きくなった。
関連論文リスト
- MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning [51.20229133553804]
自律運転における現在のビジョン・ランゲージ・アクション(VLA)パラダイムは主に模倣学習(IL)に依存している
オンライン強化学習は、トライアル・アンド・エラー学習を通じてこれらの問題に対処するための有望な経路を提供する。
大規模言語モデル(LLM)と2つの異なるLoRAパラメータからなるVLAフレームワークであるMindDriveを提案する。
軌道レベルの報酬を推論空間に戻すことで、MindDriveは、限定的な言語駆動決定の有限セットに対する試行錯誤学習を可能にする。
論文 参考訳(メタデータ) (2025-12-15T18:31:32Z) - When Actions Teach You to Think: Reasoning-Action Synergy via Reinforcement Learning in Conversational Agents [2.689316553293938]
Supervised Fine-tuning (SFT) は、下流タスクにおける大規模言語モデル(LLM)の性能を改善する最も効果的な方法の1つである。
本稿では,LLMがツールの呼び出しと対話エージェントの応答生成の両方を導く推論ステップを生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-12T04:44:40Z) - Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail [85.47497935739936]
Alpamayo-R1 (AR1) は、因果推論の連鎖と軌道計画を統合する視覚言語モデルである。
また,AR1は,軌道のみのベースラインに比べて,難問の計画精度が12%向上することを示した。
今後のアップデートで、AR1モデルとCoCのサブセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-10-30T01:25:34Z) - AdaThinkDrive: Adaptive Thinking via Reinforcement Learning for Autonomous Driving [21.10362636088305]
Chain of Thought (CoT)はVision Language Action (VLA)モデルで広く採用されている。
AdaThinkDriveは、高速でスローな思考にインスパイアされたデュアルモード推論機構を備えた新しいVLAフレームワークである。
論文 参考訳(メタデータ) (2025-09-17T07:35:39Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。