論文の概要: TS-VLM: Text-Guided SoftSort Pooling for Vision-Language Models in Multi-View Driving Reasoning
- arxiv url: http://arxiv.org/abs/2505.12670v1
- Date: Mon, 19 May 2025 03:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.384023
- Title: TS-VLM: Text-Guided SoftSort Pooling for Vision-Language Models in Multi-View Driving Reasoning
- Title(参考訳): TS-VLM:マルチビュー駆動推論におけるビジョンランゲージモデルのためのテキストガイド型ソフトソートプール
- Authors: Lihong Chen, Hossein Hassani, Soodeh Nikan,
- Abstract要約: VLM(Vision-Language Models)は、シーン認識、推論、意思決定を強化する可能性を示している。
既存のモデルは、計算オーバーヘッドとマルチビューセンサーデータの非効率な統合に悩まされている。
本稿では,新しいテキストガイドソフトソートプール(TGSSP)モジュールを組み込んだ,TS-VLMという軽量なVLMを提案する。
- 参考スコア(独自算出の注目度): 1.4087249809872509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have shown remarkable potential in advancing autonomous driving by leveraging multi-modal fusion in order to enhance scene perception, reasoning, and decision-making. Despite their potential, existing models suffer from computational overhead and inefficient integration of multi-view sensor data that make them impractical for real-time deployment in safety-critical autonomous driving applications. To address these shortcomings, this paper is devoted to designing a lightweight VLM called TS-VLM, which incorporates a novel Text-Guided SoftSort Pooling (TGSSP) module. By resorting to semantics of the input queries, TGSSP ranks and fuses visual features from multiple views, enabling dynamic and query-aware multi-view aggregation without reliance on costly attention mechanisms. This design ensures the query-adaptive prioritization of semantically related views, which leads to improved contextual accuracy in multi-view reasoning for autonomous driving. Extensive evaluations on the DriveLM benchmark demonstrate that, on the one hand, TS-VLM outperforms state-of-the-art models with a BLEU-4 score of 56.82, METEOR of 41.91, ROUGE-L of 74.64, and CIDEr of 3.39. On the other hand, TS-VLM reduces computational cost by up to 90%, where the smallest version contains only 20.1 million parameters, making it more practical for real-time deployment in autonomous vehicles.
- Abstract(参考訳): VLM(Vision-Language Models)は、シーン認識、推論、意思決定を強化するためにマルチモーダル融合を活用することで、自律運転の進歩に顕著な可能性を示している。
その可能性にもかかわらず、既存のモデルは計算オーバーヘッドとマルチビューセンサーデータの非効率な統合に悩まされており、安全クリティカルな自動運転アプリケーションにリアルタイムにデプロイするには実用的ではない。
これらの欠点に対処するため,本論文では,テキストガイド型ソフトソートプール(TGSSP)モジュールを組み込んだTS-VLMという軽量VLMの設計に着目する。
入力クエリのセマンティクスを活用することで、TGSSPは複数のビューから視覚的特徴をランク付けして融合し、コストのかかる注意機構に頼ることなく、動的でクエリ対応のマルチビューアグリゲーションを可能にする。
この設計により、セマンティック関連ビューのクエリ適応優先順位付けが保証され、自律運転のためのマルチビュー推論におけるコンテキスト精度が向上する。
DriveLMベンチマークの大規模な評価では、TS-VLMはBLEU-4スコア56.82、METEOR41.91、ROUGE-L74.64、CIDEr3.39の最先端モデルよりも優れていた。
一方、TS-VLMは計算コストを最大90%削減し、最小バージョンでは2010万のパラメータしか含まないため、自動運転車のリアルタイム展開がより現実的になる。
関連論文リスト
- LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving [9.447298958886265]
VLM(Vision-Language Models)は、エンドツーエンドの自動運転において大きな可能性を実証している。
光EMMA(Lightweight End-to-End Multimodal Model for autonomous driving)を紹介する。
様々なVLMを用いて12個の自律運転エージェントを構築し,その性能をnuScenes予測タスクで評価する。
論文 参考訳(メタデータ) (2025-05-01T04:12:41Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。