論文の概要: Poutine: Vision-Language-Trajectory Pre-Training and Reinforcement Learning Post-Training Enable Robust End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.11234v1
- Date: Thu, 12 Jun 2025 19:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.552895
- Title: Poutine: Vision-Language-Trajectory Pre-Training and Reinforcement Learning Post-Training Enable Robust End-to-End Autonomous Driving
- Title(参考訳): Poutine: ビジョン・ランゲージ・トラジェクトリによる事前訓練と強化学習によるロバストなエンドツーエンド自動運転の実現
- Authors: Luke Rowe, Rodrigue de Schaetzen, Roger Girgis, Christopher Pal, Liam Paull,
- Abstract要約: 本稿では,視覚言語モデル(VLM)であるPoutineについて紹介する。
強力なベース駆動を実現するために,Poutine-Baseを自己教師型視覚軌跡(VLT)次トーケン予測方式で訓練する。
検証セットから500フレーム未満の選好ラベル付きフレームを用いて、Poutine-Baseを微調整することにより、Poutineを得る。
- 参考スコア(独自算出の注目度): 15.334867242713063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Poutine, a 3B-parameter vision-language model (VLM) tailored for end-to-end autonomous driving in long-tail driving scenarios. Poutine is trained in two stages. To obtain strong base driving capabilities, we train Poutine-Base in a self-supervised vision-language-trajectory (VLT) next-token prediction fashion on 83 hours of CoVLA nominal driving and 11 hours of Waymo long-tail driving. Accompanying language annotations are auto-generated with a 72B-parameter VLM. Poutine is obtained by fine-tuning Poutine-Base with Group Relative Policy Optimization (GRPO) using less than 500 preference-labeled frames from the Waymo validation set. We show that both VLT pretraining and RL fine-tuning are critical to attain strong driving performance in the long-tail. Poutine-Base achieves a rater-feedback score (RFS) of 8.12 on the validation set, nearly matching Waymo's expert ground-truth RFS. The final Poutine model achieves an RFS of 7.99 on the official Waymo test set, placing 1st in the 2025 Waymo Vision-Based End-to-End Driving Challenge by a significant margin. These results highlight the promise of scalable VLT pre-training and lightweight RL fine-tuning to enable robust and generalizable autonomy.
- Abstract(参考訳): 本稿では3Bパラメータビジョン言語モデル(VLM)であるPoutineについて紹介する。
プーチンは2つの段階で訓練される。
強力なベース駆動能力を得るために、83時間のCoVLA名目駆動と11時間のWaymoロングテール駆動で、Poutine-Baseを自己教師付き視覚言語軌道(VLT)次トーケン予測方式で訓練する。
対応する言語アノテーションは72BパラメータのVLMで自動生成される。
Poutine は Poutine-Base を Group Relative Policy Optimization (GRPO) で微調整することで得られる。
本稿では,VLTプレトレーニングとRLファインチューニングの両方が,ロングテールでの駆動性能の向上に重要であることを示す。
Poutine-Baseはバリデーションセットで8.12のレーダフィードバックスコア(RFS)を達成し、Waymoのエキスパートの地上ストラスRDSとほぼ一致している。
最後のPoutineモデルは、Waymoの公式テストセットで7.99 RFSを達成し、2025年のWaymo Vision-based End-to-End Driving Challengeで1位となった。
これらの結果は、スケーラブルなVLT事前トレーニングと軽量なRLファインチューニングにより、堅牢で一般化可能な自律性を実現することを強調している。
関連論文リスト
- HMVLM: Multistage Reasoning-Enhanced Vision-Language Model for Long-Tailed Driving Scenarios [3.4075144411363034]
本稿では,認知にインスパイアされた高速スローアーキテクチャの遅い分岐を実装するエンドツーエンド駆動フレームワークであるHaoMo Vision-Language Model(HMVLM)を紹介する。
高速コントローラは低レベルのステアリング、スロットル、ブレーキコマンドを出力し、遅いプランナー、大きな視覚言語モデルでは、遅延を伴わずに「歩行者への利益」や「トラックの後にマージ」のような高レベルのインテントを生成する。
論文 参考訳(メタデータ) (2025-06-06T08:51:06Z) - CoMP: Continual Multimodal Pre-training for Vision Foundation Models [72.3323674291719]
我々は、VFM(Vision Foundation Models)をマルチモーダルな方法で継続的に事前訓練する。
我々は、慎重に設計されたマルチモーダル事前学習パイプラインであるCoMPを紹介する。
DINOv2、SigLIP、AIMv2のような主要なVFMは、マルチモーダル理解タスクにおいて著しく改善されている。
論文 参考訳(メタデータ) (2025-03-24T17:52:47Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - MetaFollower: Adaptable Personalized Autonomous Car Following [63.90050686330677]
適応型パーソナライズされた自動車追従フレームワークであるMetaFollowerを提案する。
まず,モデルに依存しないメタラーニング(MAML)を用いて,様々なCFイベントから共通運転知識を抽出する。
さらに、Long Short-Term Memory (LSTM) と Intelligent Driver Model (IDM) を組み合わせて、時間的不均一性を高い解釈性で反映する。
論文 参考訳(メタデータ) (2024-06-23T15:30:40Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - CarLLaVA: Vision language models for camera-only closed-loop driving [14.852612275631671]
本稿では,自律運転のための視覚言語モデル(VLM)であるCarLLaVAについて紹介する。
CarLLaVAは、LLaVA VLMとLLaMAアーキテクチャのビジョンエンコーダをバックボーンとして使用し、最先端の閉ループ駆動性能を実現する。
本研究は、駆動出力とともに言語解説の予測に関する予備的な結果を示す。
論文 参考訳(メタデータ) (2024-06-14T16:35:47Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Golfer: Trajectory Prediction with Masked Goal Conditioning MnM Network [16.393675040056397]
AV軌道予測のための新しいマスク付き目標条件付きトレーニング手順を備えたトランスフォーマー型アーキテクチャモジュールMnMネットワークを提案する。
ゴルファーと名付けられたこのモデルは、2022年のオープンモーション予測チャレンジで2位を獲得し、minADEで1位にランクインした。
論文 参考訳(メタデータ) (2022-07-02T04:57:44Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。