論文の概要: TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.15564v1
- Date: Wed, 21 May 2025 14:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.693984
- Title: TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving
- Title(参考訳): TinyDrive: 自律運転のための選択的なトークンルーティングによるマルチスケール視覚質問応答
- Authors: Hossein Hassani, Soodeh Nikan, Abdallah Shami,
- Abstract要約: TinyDriveは、シナリオ駆動におけるマルチビューVQAのための軽量なVLMである。
本モデルは,マルチスケールビジョンエンコーダとトークンとシーケンスの二重レベル優先順位付け機構を含む2つの重要なコンポーネントから構成される。
TinyDriveは、私たちのカスタムキュレートされたVQAデータセットで最初に評価され、その後、パブリックなDriveLMベンチマークでテストされます。
- 参考スコア(独自算出の注目度): 10.439455144126617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) employed for visual question-answering (VQA) in autonomous driving often require substantial computational resources that pose a challenge for their deployment in resource-constrained vehicles. To address this challenge, we introduce TinyDrive, a lightweight yet effective VLM for multi-view VQA in driving scenarios. Our model comprises two key components including a multiscale vision encoder and a dual-level prioritization mechanism for tokens and sequences. The multiscale encoder facilitates the processing of multi-view images at diverse resolutions through scale injection and cross-scale gating to generate enhanced visual representations. At the token level, we design a token routing mechanism that dynamically selects and process the most informative tokens based on learned importance scores. At the sequence level, we propose integrating normalized loss, uncertainty estimates, and a diversity metric to formulate sequence scores that rank and preserve samples within a sequence priority buffer. Samples with higher scores are more frequently selected for training. TinyDrive is first evaluated on our custom-curated VQA dataset, and it is subsequently tested on the public DriveLM benchmark, where it achieves state-of-the-art language understanding performance. Notably, it achieves relative improvements of 11.1% and 35.4% in BLEU-4 and METEOR scores, respectively, despite having a significantly smaller parameter count.
- Abstract(参考訳): 視覚言語モデル(VLM)は、自律運転において視覚的質問応答(VQA)に使用されるため、しばしば、資源に制約のある車両への配備に困難をもたらすかなりの計算資源を必要とする。
この課題に対処するために、TinyDriveを紹介します。これは、シナリオの駆動において、マルチビューVQAのための軽量で効果的なVLMです。
本モデルは,マルチスケールビジョンエンコーダとトークンとシーケンスの二重レベル優先順位付け機構を含む2つの重要なコンポーネントから構成される。
マルチスケールエンコーダは、スケールインジェクションとクロススケールゲーティングにより、様々な解像度のマルチビュー画像の処理を容易にし、拡張された視覚表現を生成する。
トークンレベルでは、学習された重要度スコアに基づいて最も情報性の高いトークンを動的に選択・処理するトークンルーティング機構を設計する。
シーケンスレベルでは、正規化損失、不確実性推定、多様性メトリクスを統合して、シーケンス優先バッファ内のサンプルをランク付けし保存するシーケンススコアを定式化することを提案する。
より高いスコアを持つサンプルは、トレーニングのためにより頻繁に選択される。
TinyDriveは、私たちのカスタムキュレートされたVQAデータセットで最初に評価され、その後、パブリックなDriveLMベンチマークでテストされ、最先端の言語理解のパフォーマンスを達成する。
特に、パラメータ数が大幅に小さいにもかかわらず、BLEU-4 と METEOR のスコアでそれぞれ 11.1% と 35.4% の相対的な改善を実現している。
関連論文リスト
- DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models [11.184459657989914]
シーン理解のためのマルチビュー・マルチモーダル評価ベンチマークであるNuPlanQA-Evalを紹介する。
また,NuPlanQA-1Mは,実世界の視覚的質問応答(VQA)ペア100万個からなる大規模データセットである。
評価の結果,エゴ中心の視点から,既存のMLLMがシーン特有の知覚と空間的推論を駆動する上で直面する重要な課題が明らかになった。
論文 参考訳(メタデータ) (2025-03-17T03:12:39Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving [15.551625571158056]
我々はSimpleLLM4ADと呼ばれるe2eAD法を提案する。
本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。
我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
論文 参考訳(メタデータ) (2024-07-31T02:35:33Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous
Driving Using Multiple Views [60.538802124885414]
マルチビューLidarNet(MVLidarNet)は,多層物体検出とドライビング空間分割のための2段階のディープニューラルネットワークである。
MVLidarNetは、単一のLiDARスキャンを入力として、乾燥可能な空間を同時に決定しながら、オブジェクトを検出し、分類することができる。
我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。
論文 参考訳(メタデータ) (2020-06-09T21:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。