Fugu-MT 論文翻訳(概要): ThinkDrive: Chain-of-Thought Guided Progressive Reinforcement Learning Fine-Tuning for Autonomous Driving

論文の概要: ThinkDrive: Chain-of-Thought Guided Progressive Reinforcement Learning Fine-Tuning for Autonomous Driving

arxiv url: http://arxiv.org/abs/2601.04714v1
Date: Thu, 08 Jan 2026 08:30:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-09 17:01:53.109876
Title: ThinkDrive: Chain-of-Thought Guided Progressive Reinforcement Learning Fine-Tuning for Autonomous Driving
Title（参考訳）: ThinkDrive: 自律運転のための改良型強化学習のためのチェーン・オブ・サード
Authors: Chang Zhao, Zheming Yang, Yunqing Hu, Qi Guo, Zijian Wang, Pengcheng Li, Wen Ji,
Abstract要約: 既存の手法は、非構造的推論、一般化の貧弱、そして人間の運転との不一致に悩まされている。我々は,CoTガイドによる自律運転のためのプログレッシブRL微調整フレームワークであるThinkDriveを提案する。その結果,ThinkDriveは,試験で1.45%,1.95%,1.01%,測定強度,精度でそれぞれ強いRLベースラインを上回っていることがわかった。
参考スコア（独自算出の注目度）: 14.981675960513606
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rapid advancement of large language models (LLMs) technologies, their application in the domain of autonomous driving has become increasingly widespread. However, existing methods suffer from unstructured reasoning, poor generalization, and misalignment with human driving intent. While Chain-of-Thought (CoT) reasoning enhances decision transparency, conventional supervised fine-tuning (SFT) fails to fully exploit its potential, and reinforcement learning (RL) approaches face instability and suboptimal reasoning depth. We propose ThinkDrive, a CoT guided progressive RL fine-tuning framework for autonomous driving that synergizes explicit reasoning with difficulty-aware adaptive policy optimization. Our method employs a two-stage training strategy. First, we perform SFT using CoT explanations. Then, we apply progressive RL with a difficulty-aware adaptive policy optimizer that dynamically adjusts learning intensity based on sample complexity. We evaluate our approach on a public dataset. The results show that ThinkDrive outperforms strong RL baselines by 1.45%, 1.95%, and 1.01% on exam, easy-exam, and accuracy, respectively. Moreover, a 2B-parameter model trained with our method surpasses the much larger GPT-4o by 3.28% on the exam metric.
Abstract（参考訳）: 大規模言語モデル(LLM)技術の急速な進歩により、自律運転分野における彼らの応用はますます広まりつつある。しかし、既存の手法は、非構造的推論、一般化の貧弱、人間の運転意図との相違に悩まされている。チェーン・オブ・ソート(CoT)推論は意思決定の透明性を高めるが、従来の教師付き微調整(SFT)ではその可能性を完全に活用できず、強化学習(RL)では不安定性や最適下推論の深さにアプローチする。我々は,CoTガイドによる自律運転のためのプログレッシブRL微調整フレームワークであるThinkDriveを提案する。本手法は2段階の訓練戦略を用いる。まず、CoT の説明を用いて SFT を実行する。そこで,本研究では,サンプルの複雑さに基づいて学習強度を動的に調整する,難易度対応型ポリシオプティマイザを,プログレッシブRLに適用する。パブリックデータセットに対する我々のアプローチを評価する。その結果,ThinkDriveは,試験で1.45%,1.95%,1.01%,使い勝手,精度でそれぞれ高いRLベースラインを達成していることがわかった。さらに,本手法で訓練した2Bパラメータモデルでは,試験基準において,GPT-4oよりも3.28%大きくなった。

関連論文リスト

MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning [51.20229133553804]
自律運転における現在のビジョン・ランゲージ・アクション(VLA)パラダイムは主に模倣学習(IL)に依存しているオンライン強化学習は、トライアル・アンド・エラー学習を通じてこれらの問題に対処するための有望な経路を提供する。大規模言語モデル(LLM)と2つの異なるLoRAパラメータからなるVLAフレームワークであるMindDriveを提案する。軌道レベルの報酬を推論空間に戻すことで、MindDriveは、限定的な言語駆動決定の有限セットに対する試行錯誤学習を可能にする。
論文参考訳（メタデータ） (2025-12-15T18:31:32Z)
When Actions Teach You to Think: Reasoning-Action Synergy via Reinforcement Learning in Conversational Agents [2.689316553293938]
Supervised Fine-tuning (SFT) は、下流タスクにおける大規模言語モデル(LLM)の性能を改善する最も効果的な方法の1つである。本稿では,LLMがツールの呼び出しと対話エージェントの応答生成の両方を導く推論ステップを生成するパイプラインを提案する。
論文参考訳（メタデータ） (2025-12-12T04:44:40Z)
Omni-AutoThink: Adaptive Multimodal Reasoning via Reinforcement Learning [57.96134674544638]
本稿では,タスクの難易度に応じてモデルの推論深度を動的に調整する適応推論フレームワークを提案する。本研究の枠組みは,(1)大規模推論データを用いた基本推論能力を備えた適応監視ファインチューニング段階,(2)タスク複雑性と報酬フィードバックに基づく推論行動の最適化を行う適応強化学習段階の2段階からなる。
論文参考訳（メタデータ） (2025-12-03T13:33:28Z)
Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail [85.47497935739936]
Alpamayo-R1 (AR1) は、因果推論の連鎖と軌道計画を統合する視覚言語モデルである。また,AR1は,軌道のみのベースラインに比べて,難問の計画精度が12%向上することを示した。今後のアップデートで、AR1モデルとCoCのサブセットをリリースする予定です。
論文参考訳（メタデータ） (2025-10-30T01:25:34Z)
Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning [35.83999932977034]
エージェントの振る舞いを人間の好みや評価指標とよりよく整合させるため,次世代の予測モデルに適した新しいR1型強化微調整パラダイムを提案する。提案手法では、分布アライメントを改善するためのメトリック指向ポリシー最適化アルゴリズムと、スーパービジョンファインチューニング(SFT)と強化ファインチューニング(RFT)を交互に行う反復的な"SFT-RFT-SFT"トレーニング戦略を導入する。 Open Sim Agents Challengeの結果、SMART-R1は総合リアリズムメタスコア0.7858で最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2025-09-28T17:36:13Z)
AdaThinkDrive: Adaptive Thinking via Reinforcement Learning for Autonomous Driving [21.10362636088305]
Chain of Thought (CoT)はVision Language Action (VLA)モデルで広く採用されている。 AdaThinkDriveは、高速でスローな思考にインスパイアされたデュアルモード推論機構を備えた新しいVLAフレームワークである。
論文参考訳（メタデータ） (2025-09-17T07:35:39Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。複雑な動的トラフィックシナリオを処理できる。 CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文参考訳（メタデータ） (2024-10-03T06:45:59Z)
Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文参考訳（メタデータ） (2024-08-25T16:43:47Z)
Integrated Decision and Control: Towards Interpretable and Efficient Driving Intelligence [13.589285628074542]
自動走行車のための解釈可能かつ効率的な意思決定・制御フレームワークを提案する。駆動タスクを階層的に構造化されたマルチパス計画と最適追跡に分解する。その結果,オンライン計算の効率性や交通効率,安全性などの運転性能が向上した。
論文参考訳（メタデータ） (2021-03-18T14:43:31Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。