論文の概要: Poutine: Vision-Language-Trajectory Pre-Training and Reinforcement Learning Post-Training Enable Robust End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.11234v3
- Date: Thu, 02 Oct 2025 01:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 12:04:55.832506
- Title: Poutine: Vision-Language-Trajectory Pre-Training and Reinforcement Learning Post-Training Enable Robust End-to-End Autonomous Driving
- Title(参考訳): Poutine: ビジョン・ランゲージ・トラジェクトリによる事前訓練と強化学習によるロバストなエンドツーエンド自動運転の実現
- Authors: Luke Rowe, Rodrigue de Schaetzen, Roger Girgis, Christopher Pal, Liam Paull,
- Abstract要約: Poutineは、市販のビジョン言語モデル(VLM)を用いて、堅牢なエンドツーエンド自動運転を実現する手法である。
強力なベース駆動能力を学習するために、視覚、言語、軌跡(VLT)トークンに対する自己教師付き次トーケン予測を用いてPoutine-Baseを訓練する。
最後のPoutineモデルはテストセットで7.99 RFSを達成し、2025年のビジョンベースエンド・ツー・エンド・ドライビングチャレンジで1位となった。
- 参考スコア(独自算出の注目度): 19.48508500497233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maintaining good driving behavior in out-of-distribution scenarios remains a critical challenge in autonomous driving. A promising direction is to leverage the generalist knowledge and reasoning capabilities of large-language models by treating unusual driving scenarios as a logical reasoning task. In this work, we present Poutine, a method that uses an off-the-shelf 3B-parameter vision-language model (VLM) - without any additional components - to achieve robust end-to-end autonomous driving via a simple and scalable training recipe. To learn strong base driving capabilities, we first train Poutine-Base using self-supervised next-token prediction over vision, language, and trajectory (VLT) tokens, leveraging both nominal and long-tail driving data. In the second stage, we fine-tune Poutine-Base using Group Relative Policy Optimization (GRPO) with a small set of human preference-labeled examples. We evaluated our approach on the Waymo end-to-end driving benchmark curated for long-tail scenarios. The final Poutine model achieves an RFS of 7.99 on the test set, placing 1st in the 2025 Waymo Vision-Based End-to-End Driving Challenge by a significant margin. Our results suggest that handcrafted tokenizers or custom architectural components added to base VLMs in prior work are not necessary to achieve strong driving performance. Instead, this work highlights the potential of scalable VLT pretraining combined with lightweight RL fine-tuning to enable robust and generalizable autonomous driving.
- Abstract(参考訳): アウト・オブ・ディストリビューションシナリオにおける優れた運転行動を維持することは、自動運転において重要な課題である。
有望な方向性は、異常な駆動シナリオを論理的推論タスクとして扱うことにより、大規模モデルの一般的な知識と推論能力を活用することである。
本研究では,既製の3Bパラメータ・ビジョン言語モデル(VLM)を付加部品なしで使用して,シンプルでスケーラブルなトレーニングレシピによる堅牢なエンドツーエンド自動運転を実現する手法であるPoutineを提案する。
強力なベース駆動能力を学習するために,視覚,言語,軌跡(VLT)トークンに対する自己教師付き次トーケン予測を用いてPoutine-Baseをトレーニングする。
第2段階では,グループ相対政策最適化(GRPO)を用いたPoutine-Baseの微調整を行う。
Waymoのエンドツーエンド駆動ベンチマークに対するアプローチを,ロングテールシナリオでキュレートした上で評価した。
最終Poutineモデルはテストセットで7.99 RFSを達成し、2025年のWaymo Vision-Based End-to-End Driving Challengeで1位となった。
本研究は, 従来のVLMに手作りのトークンやカスタムアーキテクチャコンポーネントを組み込むことで, 強力な駆動性能を実現する必要はないことを示唆する。
代わりに、この研究は、スケーラブルなVLT事前トレーニングと軽量なRL微調整を組み合わせることで、堅牢で一般化可能な自動運転を可能にする可能性を強調している。
関連論文リスト
- VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [42.409352964719204]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - HMVLM: Multistage Reasoning-Enhanced Vision-Language Model for Long-Tailed Driving Scenarios [3.4075144411363034]
本稿では,認知にインスパイアされた高速スローアーキテクチャの遅い分岐を実装するエンドツーエンド駆動フレームワークであるHaoMo Vision-Language Model(HMVLM)を紹介する。
高速コントローラは低レベルのステアリング、スロットル、ブレーキコマンドを出力し、遅いプランナー、大きな視覚言語モデルでは、遅延を伴わずに「歩行者への利益」や「トラックの後にマージ」のような高レベルのインテントを生成する。
論文 参考訳(メタデータ) (2025-06-06T08:51:06Z) - CoMP: Continual Multimodal Pre-training for Vision Foundation Models [72.3323674291719]
我々は、VFM(Vision Foundation Models)をマルチモーダルな方法で継続的に事前訓練する。
我々は、慎重に設計されたマルチモーダル事前学習パイプラインであるCoMPを紹介する。
DINOv2、SigLIP、AIMv2のような主要なVFMは、マルチモーダル理解タスクにおいて著しく改善されている。
論文 参考訳(メタデータ) (2025-03-24T17:52:47Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - MetaFollower: Adaptable Personalized Autonomous Car Following [63.90050686330677]
適応型パーソナライズされた自動車追従フレームワークであるMetaFollowerを提案する。
まず,モデルに依存しないメタラーニング(MAML)を用いて,様々なCFイベントから共通運転知識を抽出する。
さらに、Long Short-Term Memory (LSTM) と Intelligent Driver Model (IDM) を組み合わせて、時間的不均一性を高い解釈性で反映する。
論文 参考訳(メタデータ) (2024-06-23T15:30:40Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - CarLLaVA: Vision language models for camera-only closed-loop driving [14.852612275631671]
本稿では,自律運転のための視覚言語モデル(VLM)であるCarLLaVAについて紹介する。
CarLLaVAは、LLaVA VLMとLLaMAアーキテクチャのビジョンエンコーダをバックボーンとして使用し、最先端の閉ループ駆動性能を実現する。
本研究は、駆動出力とともに言語解説の予測に関する予備的な結果を示す。
論文 参考訳(メタデータ) (2024-06-14T16:35:47Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Golfer: Trajectory Prediction with Masked Goal Conditioning MnM Network [16.393675040056397]
AV軌道予測のための新しいマスク付き目標条件付きトレーニング手順を備えたトランスフォーマー型アーキテクチャモジュールMnMネットワークを提案する。
ゴルファーと名付けられたこのモデルは、2022年のオープンモーション予測チャレンジで2位を獲得し、minADEで1位にランクインした。
論文 参考訳(メタデータ) (2022-07-02T04:57:44Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。