論文の概要: MTDrive: Multi-turn Interactive Reinforcement Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2601.22930v1
- Date: Fri, 30 Jan 2026 12:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.44606
- Title: MTDrive: Multi-turn Interactive Reinforcement Learning for Autonomous Driving
- Title(参考訳): MTDrive: 自律運転のための多ターン対話型強化学習
- Authors: Xidong Li, Mingyu Guo, Chenchao Xu, Bailin Li, Wenjing Zhu, Yangang Zou, Rui Chen, Zehuan Wang,
- Abstract要約: 軌道計画は自動運転における中核的な課題である。
強化学習によるMLLMは、"ロングテール"シナリオに対処する上で、有望であることを示している。
我々は,MLLMが環境フィードバックに基づいて軌道を反復的に洗練できるマルチターンフレームワークMTDriveを提案する。
- 参考スコア(独自算出の注目度): 12.330414519761524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trajectory planning is a core task in autonomous driving, requiring the prediction of safe and comfortable paths across diverse scenarios. Integrating Multi-modal Large Language Models (MLLMs) with Reinforcement Learning (RL) has shown promise in addressing "long-tail" scenarios. However, existing methods are constrained to single-turn reasoning, limiting their ability to handle complex tasks requiring iterative refinement. To overcome this limitation, we present MTDrive, a multi-turn framework that enables MLLMs to iteratively refine trajectories based on environmental feedback. MTDrive introduces Multi-Turn Group Relative Policy Optimization (mtGRPO), which mitigates reward sparsity by computing relative advantages across turns. We further construct an interactive trajectory understanding dataset from closed-loop simulation to support multi-turn training. Experiments on the NAVSIM benchmark demonstrate superior performance compared to existing methods, validating the effectiveness of our multi-turn reasoning paradigm. Additionally, we implement system-level optimizations to reduce data transfer overhead caused by high-resolution images and multi-turn sequences, achieving 2.5x training throughput. Our data, models, and code will be made available soon.
- Abstract(参考訳): 軌道計画は自律運転における中核的なタスクであり、様々なシナリオにまたがる安全で快適な経路の予測を必要とする。
MLLM(Multi-modal Large Language Models)と強化学習(RL)を統合することは、"ロングテール"シナリオに対処する上で有望であることを示している。
しかし、既存の手法は単ターン推論に制約されており、反復的な洗練を必要とする複雑なタスクを扱う能力を制限する。
この制限を克服するために,MLLMが環境フィードバックに基づいて軌道を反復的に洗練できるマルチターンフレームワークMTDriveを提案する。
MTDriveはMulti-Turn Group Relative Policy Optimization (mtGRPO)を導入している。
さらに,閉ループシミュレーションから対話的軌道理解データセットを構築し,マルチターン学習を支援する。
NAVSIMベンチマークの実験では,従来の手法と比較して優れた性能を示し,マルチターン推論パラダイムの有効性を検証した。
さらに,高解像度画像とマルチターンシーケンスによるデータ転送オーバヘッドを低減するために,システムレベルの最適化を実装し,2.5倍のトレーニングスループットを実現する。
私たちのデータ、モデル、コードはもうすぐ利用可能になります。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment [0.0]
ハーモナイズドトランスファーラーニングとモダリティアライメント(HarMA)は,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法である。
HarMAはリモートセンシング分野における2つの一般的なマルチモーダル検索タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-04-28T17:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。