論文の概要: From Representational Complementarity to Dual Systems: Synergizing VLM and Vision-Only Backbones for End-to-End Driving
- arxiv url: http://arxiv.org/abs/2602.10719v1
- Date: Wed, 11 Feb 2026 10:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.762776
- Title: From Representational Complementarity to Dual Systems: Synergizing VLM and Vision-Only Backbones for End-to-End Driving
- Title(参考訳): 表現の相補性からデュアルシステムへ:VLMと視覚のみのバックボーンを融合してエンド・ツー・エンド運転
- Authors: Sining Ang, Yuguang Yang, Chenxu Dang, Canyu Chen, Cheng Chi, Haiyan Liu, Xuanyao Mao, Jason Bao, Xuliang, Bingchuan Sun, Yan Wang,
- Abstract要約: VLA(Vision-Language-Action)は、言語対応のバックボーンによるエンドツーエンド(E2E)計画を強化する。
我々は,この問題をRecogDriveの3-RQ分析で再検討し,完全なVLMとビジョンのみのバックボーンでシステムをインスタンス化する。
ViTとVLMの両方のブランチを実行し、学習したスコアラーを用いてエンドポイントの軌跡を選択できるHybridDriveVLAを提案する。
- 参考スコア(独自算出の注目度): 16.112354697323575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) driving augments end-to-end (E2E) planning with language-enabled backbones, yet it remains unclear what changes beyond the usual accuracy--cost trade-off. We revisit this question with 3--RQ analysis in RecogDrive by instantiating the system with a full VLM and vision-only backbones, all under an identical diffusion Transformer planner. RQ1: At the backbone level, the VLM can introduce additional subspaces upon the vision-only backbones. RQ2: This unique subspace leads to a different behavioral in some long-tail scenario: the VLM tends to be more aggressive whereas ViT is more conservative, and each decisively wins on about 2--3% of test scenarios; With an oracle that selects, per scenario, the better trajectory between the VLM and ViT branches, we obtain an upper bound of 93.58 PDMS. RQ3: To fully harness this observation, we propose HybridDriveVLA, which runs both ViT and VLM branches and selects between their endpoint trajectories using a learned scorer, improving PDMS to 92.10. Finally, DualDriveVLA implements a practical fast--slow policy: it runs ViT by default and invokes the VLM only when the scorer's confidence falls below a threshold; calling the VLM on 15% of scenarios achieves 91.00 PDMS while improving throughput by 3.2x. Code will be released.
- Abstract(参考訳): Vision-Language-Action (VLA) による運転では、言語対応のバックボーンによるエンドツーエンド(E2E)計画が強化されているが、通常の精度とコストのトレードオフを超えて、どのような変更があるのかは不明だ。
この問題をRecogDriveの3-RQ解析で再検討し、完全なVLMと視覚のみのバックボーンでシステムをインスタンス化し、全て同じ拡散トランスフォーマープランナーで処理する。
RQ1: バックボーンレベルでは、VLMはビジョンのみのバックボーンに追加のサブスペースを導入することができる。
RQ2: このユニークなサブスペースは、いくつかのロングテールシナリオにおいて異なる振る舞いをもたらす: VLMはより攻撃的であるが、VTはより保守的であり、それぞれが約2-3%のテストシナリオで決定的に勝利する: シナリオ毎に、VLMとViTブランチ間のより良い軌道を選択できるオラクルでは、93.58 PDMSの上限を得る。RQ3: この観察を完全に活用するために、我々は、ViTとVLMブランチの両方を実行し、学習スコアラーを使用してエンドポイントのトラジェクトリを選択するHybridDriveVLAを提案する。
コードはリリースされる。
関連論文リスト
- InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models [49.08289742711585]
我々は、Gated DeltaNetとSWA(Slide window attention)を相乗化する線形複雑VLMアーキテクチャであるInfiniteVLを提案する。
InfiniteVLは、一定のレイテンシとメモリフットプリントを維持しながら、3.6時間以上の推論高速化を実現する。
ストリーミングビデオ理解のシナリオでは、長期メモリキャッシュを保持しながら、24FPSのリアルタイムプリフィル速度を安定的に維持する。
論文 参考訳(メタデータ) (2025-12-09T17:18:32Z) - LLaVA-UHD v3: Progressive Visual Compression for Efficient Native-Resolution Encoding in MLLMs [52.24096832965001]
提案するプログレッシブ・ビジュアル・圧縮(PVC)法を中心としたMLLMであるLLaVA-UHD v3を提案する。
PVC法は、視覚変換器(ViT)にシームレスに統合して、効率的なネイティブ解像度符号化を可能にする。
ViT-UHDをベースとしたLLaVA-UHD v3はQwen2-VLとの競合性能も達成し、TTFTを1.9倍削減した。
論文 参考訳(メタデータ) (2025-11-26T08:11:10Z) - LaViDa: A Large Diffusion Language Model for Multimodal Understanding [70.99233885354028]
LaViDaは離散拡散モデルに基づいて構築されたビジョンランゲージモデルのファミリーである。
DMは、高速な推論と制御可能な生成のための双方向コンテキストのための並列デコーディングを提供する。
LaViDaはマルチモーダルベンチマークでAR VLMと競合または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-22T16:07:12Z) - Similarity-Aware Token Pruning: Your VLM but Faster [1.9183218182020931]
本稿では、視覚変換器(ViT)と視覚言語モデル(VLM)のためのトレーニングフリートークン解析フレームワークであるSAINTを紹介する。
系統的な解析により,変圧器における3段階の普遍的なトークン進化過程を同定し,臨界情報を犠牲にすることなく早期にアグレッシブプルーニングを可能にする。
ViTでは、SAINTは224pxでViT-H/14のスループットを2倍にし、ImageNet-1Kの精度はわずか0.6%で、最も近い競合相手を0.8%上回っている。
論文 参考訳(メタデータ) (2025-03-14T16:12:23Z) - LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer [110.39467860530819]
視覚変換器 (ViT) は視覚符号化のための多モード大言語モデル (MLLM) に広く用いられている。
我々は、よく設計された視覚言語プロジェクタを導入することで、高度な知覚能力を持つMLLMであるLLaVA-UHD v2を提案する。
ハイウィン変換器は、構築した高精細なセマンティックピラミッドを組み込むことにより、MLLMの多様なマルチモーダルな視覚的粒度を捕捉する能力を高める。
論文 参考訳(メタデータ) (2024-12-18T14:07:46Z) - MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning [28.254318215697527]
VLM(Vision-Language Model)は、多数のパラメータによって計算コストが高い。
VLMの既存の技術はタスク固有であり、新しいタスクごとにネットワークをスクラッチから切り離す必要がある。
タスク非依存型視覚言語計画(TA-Language Pruning:TA-Language Pruning)
TA言語のための第1のグラデーションフリー・プルーニングフレームワークであるMultimodal FlowPruning (MULTIFLOW)を提案する。
論文 参考訳(メタデータ) (2024-04-08T15:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。