論文の概要: MTDrive: Multi-turn Interactive Reinforcement Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2601.22930v1
- Date: Fri, 30 Jan 2026 12:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.44606
- Title: MTDrive: Multi-turn Interactive Reinforcement Learning for Autonomous Driving
- Title(参考訳): MTDrive: 自律運転のための多ターン対話型強化学習
- Authors: Xidong Li, Mingyu Guo, Chenchao Xu, Bailin Li, Wenjing Zhu, Yangang Zou, Rui Chen, Zehuan Wang,
- Abstract要約: 軌道計画は自動運転における中核的な課題である。
強化学習によるMLLMは、"ロングテール"シナリオに対処する上で、有望であることを示している。
我々は,MLLMが環境フィードバックに基づいて軌道を反復的に洗練できるマルチターンフレームワークMTDriveを提案する。
- 参考スコア(独自算出の注目度): 12.330414519761524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trajectory planning is a core task in autonomous driving, requiring the prediction of safe and comfortable paths across diverse scenarios. Integrating Multi-modal Large Language Models (MLLMs) with Reinforcement Learning (RL) has shown promise in addressing "long-tail" scenarios. However, existing methods are constrained to single-turn reasoning, limiting their ability to handle complex tasks requiring iterative refinement. To overcome this limitation, we present MTDrive, a multi-turn framework that enables MLLMs to iteratively refine trajectories based on environmental feedback. MTDrive introduces Multi-Turn Group Relative Policy Optimization (mtGRPO), which mitigates reward sparsity by computing relative advantages across turns. We further construct an interactive trajectory understanding dataset from closed-loop simulation to support multi-turn training. Experiments on the NAVSIM benchmark demonstrate superior performance compared to existing methods, validating the effectiveness of our multi-turn reasoning paradigm. Additionally, we implement system-level optimizations to reduce data transfer overhead caused by high-resolution images and multi-turn sequences, achieving 2.5x training throughput. Our data, models, and code will be made available soon.
- Abstract(参考訳): 軌道計画は自律運転における中核的なタスクであり、様々なシナリオにまたがる安全で快適な経路の予測を必要とする。
MLLM(Multi-modal Large Language Models)と強化学習(RL)を統合することは、"ロングテール"シナリオに対処する上で有望であることを示している。
しかし、既存の手法は単ターン推論に制約されており、反復的な洗練を必要とする複雑なタスクを扱う能力を制限する。
この制限を克服するために,MLLMが環境フィードバックに基づいて軌道を反復的に洗練できるマルチターンフレームワークMTDriveを提案する。
MTDriveはMulti-Turn Group Relative Policy Optimization (mtGRPO)を導入している。
さらに,閉ループシミュレーションから対話的軌道理解データセットを構築し,マルチターン学習を支援する。
NAVSIMベンチマークの実験では,従来の手法と比較して優れた性能を示し,マルチターン推論パラダイムの有効性を検証した。
さらに,高解像度画像とマルチターンシーケンスによるデータ転送オーバヘッドを低減するために,システムレベルの最適化を実装し,2.5倍のトレーニングスループットを実現する。
私たちのデータ、モデル、コードはもうすぐ利用可能になります。
関連論文リスト
- LLM-MLFFN: Multi-Level Autonomous Driving Behavior Feature Fusion via Large Language Model [8.63792214154021]
本稿では,LLM-MLFFNについて述べる。
提案する LLM-MLFFN フレームワークは,大規模事前学習モデルの事前処理を統合し,分類精度を高めるためにマルチレベルアプローチを採用する。
オープントラジェクトリデータセットの評価は、提案したLLM-MLFFNの優れた性能を示し、分類精度は94%以上である。
論文 参考訳(メタデータ) (2026-03-03T02:26:04Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Large Multimodal Models-Empowered Task-Oriented Autonomous Communications: Design Methodology and Implementation Challenges [31.57528074626831]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は前例のない突破口となった。
本稿では,LLM/LMMを用いたタスク指向の自律通信について述べる。
提案したLLM/LMM支援自律システムは,従来型および差別型深層学習(DL)モデルに基づく手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-10-23T15:08:58Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - TransLLM: A Unified Multi-Task Foundation Framework for Urban Transportation via Learnable Prompting [26.764515296168145]
大規模ディープラーニングモデルはタスクハングリーとデータハングリーであり、さまざまなシナリオにおける一般化性を制限する。
学習可能なプロンプト合成により,大規模言語モデルとモデリングを統合した統合フレームワークであるTransLLMを提案する。
提案手法は,拡張時間畳み込みと2つの隣接グラフアテンションネットワークによって複雑な依存関係をキャプチャする軽量エンコーダを備える。
論文 参考訳(メタデータ) (2025-08-20T15:27:49Z) - A Survey on Deep Multi-Task Learning in Connected Autonomous Vehicles [21.18445786285742]
連結自動運転車(CAV)は、オブジェクト検出、セマンティックセグメンテーション、深さ推定、軌道予測、動き予測、行動予測など、複数のタスクを同時に実行する必要がある。
伝統的に、これらのタスクは異なるモデルを使用して対処されるため、デプロイメントコストが高くなり、計算オーバーヘッドが増大し、リアルタイムのパフォーマンスを達成する上での課題が生じる。
マルチタスク学習(MTL)は、単一の統一モデル内で複数のタスクの協調学習を可能にする、有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2025-07-29T22:17:28Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment [0.0]
ハーモナイズドトランスファーラーニングとモダリティアライメント(HarMA)は,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法である。
HarMAはリモートセンシング分野における2つの一般的なマルチモーダル検索タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-04-28T17:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。