論文の概要: HMVLM: Multistage Reasoning-Enhanced Vision-Language Model for Long-Tailed Driving Scenarios
- arxiv url: http://arxiv.org/abs/2506.05883v1
- Date: Fri, 06 Jun 2025 08:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.39058
- Title: HMVLM: Multistage Reasoning-Enhanced Vision-Language Model for Long-Tailed Driving Scenarios
- Title(参考訳): HMVLM:長距離運転シナリオのためのマルチステージ推論強化ビジョンランゲージモデル
- Authors: Daming Wang, Yuhao Song, Zijian He, Kangliang Chen, Xing Pan, Lu Deng, Weihao Gu,
- Abstract要約: 本稿では,認知にインスパイアされた高速スローアーキテクチャの遅い分岐を実装するエンドツーエンド駆動フレームワークであるHaoMo Vision-Language Model(HMVLM)を紹介する。
高速コントローラは低レベルのステアリング、スロットル、ブレーキコマンドを出力し、遅いプランナー、大きな視覚言語モデルでは、遅延を伴わずに「歩行者への利益」や「トラックの後にマージ」のような高レベルのインテントを生成する。
- 参考スコア(独自算出の注目度): 3.4075144411363034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present HaoMo Vision-Language Model (HMVLM), an end-to-end driving framework that implements the slow branch of a cognitively inspired fast-slow architecture. A fast controller outputs low-level steering, throttle, and brake commands, while a slow planner-a large vision-language model-generates high-level intents such as "yield to pedestrian" or "merge after the truck" without compromising latency. HMVLM introduces three upgrades: (1) selective five-view prompting with an embedded 4s history of ego kinematics, (2) multi-stage chain-of-thought (CoT) prompting that enforces a Scene Understanding -> Driving Decision -> Trajectory Inference reasoning flow, and (3) spline-based trajectory post-processing that removes late-stage jitter and sharp turns. Trained on the Waymo Open Dataset, these upgrades enable HMVLM to achieve a Rater Feedback Score (RFS) of 7.7367, securing 2nd place in the 2025 Waymo Vision-based End-to-End (E2E) Driving Challenge and surpassing the public baseline by 2.77%.
- Abstract(参考訳): 本稿では,認知にインスパイアされた高速スローアーキテクチャの遅い分岐を実装するエンドツーエンド駆動フレームワークであるHaoMo Vision-Language Model(HMVLM)を紹介する。
高速コントローラは低レベルのステアリング、スロットル、ブレーキコマンドを出力し、遅いプランナー、大きな視覚言語モデルでは、遅延を伴わずに「歩行者への利益」や「トラックの後にマージ」のような高レベルのインテントを生成する。
HMVLMでは,(1)エゴキネマティクスの組込み4s履歴による選択的5ビュープロンプト,(2)シーン理解->運転決定->軌道推論推論フローを強制するマルチステージチェーン・オブ・シント(CoT)プロンプト,(3)後期ジッタとシャープターンを除去するスプラインベースの軌道後処理,の3つのアップグレードを導入している。
Waymo Open Datasetで訓練されたこれらのアップグレードにより、HMVLMは7.7367のラターフィードバックスコア(Rater Feedback Score, RFS)を達成でき、2025年のWaymo VisionベースのEnd-to-End (E2E) Driving Challengeで2位を獲得し、公のベースラインを2.77%上回る。
関連論文リスト
- DriveMind: A Dual-VLM based Reinforcement Learning Framework for Autonomous Driving [14.988477212106018]
DriveMindは、自動運転のためのセマンティック報酬フレームワークである。
平均速度は19.4 +/- 2.3 km/h、経路完了は0.98 +/- 0.03、衝突はゼロに近い。
そのセマンティック報酬は、最小分散シフトでゼロショットから実際のダッシュカムデータを一般化する。
論文 参考訳(メタデータ) (2025-06-01T03:51:09Z) - FASIONAD++ : Integrating High-Level Instruction and Information Bottleneck in FAt-Slow fusION Systems for Enhanced Safety in Autonomous Driving with Adaptive Feedback [15.55944950850973]
FASIONADは、VLMベースの推論モジュールで高速なエンドツーエンドプランナーをシナジする、新しいデュアルシステムフレームワークである。
オープンループ実験では、FASIONADは平均$L2$軌道誤差を6.7%削減し、28.1%$衝突率を下げる。
論文 参考訳(メタデータ) (2025-03-11T08:27:01Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning [24.511628941825116]
我々は,人間ライクな駆動チェーン(CoT)推論フレームワークであるSce2DriveXを紹介した。
人間の運転に固有の暗黙の認知連鎖を再構築し、シーン理解、メタアクション推論、行動解釈分析、行動計画および制御をカバーしている。
CARLA Bench2Driveベンチマークでは、シーン理解からエンドツーエンドの駆動まで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-19T09:50:44Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control [68.74166535159311]
MagicDrive-V2は、MVDiTブロックと時空間条件エンコーディングを統合し、マルチビュービデオ生成と正確な幾何学的制御を可能にする新しいアプローチである。
これは、解像度が3.3倍、フレーム数が4.4倍のマルチビュー駆動ビデオ合成を可能にする(現在のSOTAと比較)。
論文 参考訳(メタデータ) (2024-11-21T03:13:30Z) - SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving [15.551625571158056]
我々はSimpleLLM4ADと呼ばれるe2eAD法を提案する。
本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。
我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
論文 参考訳(メタデータ) (2024-07-31T02:35:33Z) - Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? [66.6886931183372]
我々は,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。
その単純さにもかかわらず、Atlasは3D検出とエゴ計画の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-28T16:57:44Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning [0.0]
本稿では,車載エゴカメラビューのためのマルチモーダル高密度映像キャプションモデルであるTrafficVLMを提案する。
私たちのソリューションは、AI City Challenge 2024のトラック2で傑出した成果を上げました。
論文 参考訳(メタデータ) (2024-04-14T14:51:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。