論文の概要: Efficient Visual Question Answering Pipeline for Autonomous Driving via Scene Region Compression
- arxiv url: http://arxiv.org/abs/2601.07092v1
- Date: Sun, 11 Jan 2026 23:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.159451
- Title: Efficient Visual Question Answering Pipeline for Autonomous Driving via Scene Region Compression
- Title(参考訳): シーン領域圧縮による自律走行のための効率的な視覚質問応答パイプライン
- Authors: Yuliang Cai, Dongqiangzi Ye, Zitian Chen, Chongruo Wu,
- Abstract要約: 現在の最先端のVQAモデルは、計算効率よりも性能を優先している。
本稿では,自律走行VQAタスク,SRC-Pipelineのための効率的なVLMフレームワークを提案する。
自律走行ビデオ質問応答タスクの実験は、我々のアプローチが同等の性能を維持しながら、66%のFLOP削減を実現していることを示している。
- 参考スコア(独自算出の注目度): 5.459169631906009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving increasingly relies on Visual Question Answering (VQA) to enable vehicles to understand complex surroundings by analyzing visual inputs and textual queries. Currently, a paramount concern for VQA in this domain is the stringent requirement for fast latency and real-time processing, as delays directly impact real-world safety in this safety-critical application. However, current state-of-the-art VQA models, particularly large vision-language models (VLMs), often prioritize performance over computational efficiency. These models typically process dense patch tokens for every frame, leading to prohibitive computational costs (FLOPs) and significant inference latency, especially with long video sequences. This focus limits their practical deployment in real-time autonomous driving scenarios. To tackle this issue, we propose an efficient VLM framework for autonomous driving VQA tasks, SRC-Pipeline. It learns to compress early frame tokens into a small number of high-level tokens while retaining full patch tokens for recent frames. Experiments on autonomous driving video question answering tasks show that our approach achieves 66% FLOPs reduction while maintaining comparable performance, enabling VLMs to operate more effectively in real-time, safety-critical autonomous driving settings.
- Abstract(参考訳): 自律運転は、視覚的な入力とテキストクエリを分析することで、車両が複雑な環境を理解することを可能にするために、視覚的質問回答(VQA)にますます依存している。
現在、この領域におけるVQAの最大の懸念事項は、この安全クリティカルなアプリケーションにおいて、遅延が現実世界の安全性に直接影響するため、高速レイテンシとリアルタイム処理の厳格な要件である。
しかしながら、現在の最先端のVQAモデル、特に大きな視覚言語モデル(VLM)は、計算効率よりも性能を優先することが多い。
これらのモデルは通常、すべてのフレームに対して高密度なパッチトークンを処理し、特に長いビデオシーケンスにおいて、計算コストの禁止(FLOP)と大きな推論遅延につながる。
これにより、リアルタイムの自動運転シナリオへの実践的な展開が制限される。
この問題に対処するために,自律走行VQAタスク,SRC-Pipelineのための効率的なVLMフレームワークを提案する。
初期のフレームトークンを少数のハイレベルトークンに圧縮し、最近のフレームの完全なパッチトークンを保持しながら学習する。
自律運転ビデオ質問応答タスクの実験は、我々のアプローチが同等の性能を維持しながら66%のFLOP削減を実現し、VLMがリアルタイムで安全クリティカルな自動運転設定でより効果的に動作することを示す。
関連論文リスト
- FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference [49.84148668264725]
SparseVILAは効率的なVLM推論のための新しいパラダイムであり、前処理と復号の段階で視覚空間を疎結合する。
AWQ最適化推論パイプライン上に構築されたSparseVILAは、プリフィルの最大4.0倍、デコーディングの2.5倍、長文ビデオタスクの2.6倍のエンドツーエンド高速化を実現している。
論文 参考訳(メタデータ) (2025-10-20T17:35:47Z) - FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning [75.80110543049783]
我々は,自律運転のための再建型視覚トークンプルーニングフレームワークであるFastDriveVLAを提案する。
VLAモデルの視覚的エンコーダにReconPrunerを訓練するために, 新たなフォアグラウンド逆バックグラウンド再構築戦略を考案した。
提案手法は,異なるプルーニング比におけるnuScenesオープンループ計画ベンチマークの最先端結果を実現する。
論文 参考訳(メタデータ) (2025-07-31T07:55:56Z) - FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。
ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。
我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T05:00:39Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - LaVida Drive: Vision-Text Interaction VLM for Autonomous Driving with Token Selection, Recovery and Enhancement [4.534832757549232]
本稿では,自律運転のための新しい,効率的なVQAフレームワークであるLaVida Driveを紹介する。
LaVida Driveは、詳細な視覚知覚のための高解像度入力を維持しながら、時間データをシームレスに統合する。
複雑な詳細のための高分解能データを保持し、時間解析のために低分解能入力を使用することで空間処理を最適化する。
論文 参考訳(メタデータ) (2024-11-20T02:14:07Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。