論文の概要: ST-Prune: Training-Free Spatio-Temporal Token Pruning for Vision-Language Models in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2604.19145v1
- Date: Tue, 21 Apr 2026 06:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.658144
- Title: ST-Prune: Training-Free Spatio-Temporal Token Pruning for Vision-Language Models in Autonomous Driving
- Title(参考訳): ST-Prune:自律運転におけるビジョンランゲージモデルのための訓練不要時空間トーケンプルーニング
- Authors: Lin Sha, Haiyun Guo, Tao Wang, Cong Zhang, Min Huang, Jinqiao Wang, Qinghai Miao,
- Abstract要約: 我々は、Motionaware RSP (MTP) と Ring-view Spatial Pruning (RSPRSP) の2つの相補的なモジュールからなるトレーニングフリーのプラグアンドプレイフレームワークST-Pruneを提案する。
これら2つのモジュールは完全な時間的プルーニングプロセスを構成し、トレーニング不要なトークンプルーニングのための重要な幾何学的技法を保存する。
ST-Pruneは、既存のプルーニングアプローチに匹敵する速度を維持しながら、フルモデルベースラインを超える特定のメトリクスで、ほぼロスレスのパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 31.688411695647357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have become central to autonomous driving systems, yet their deployment is severely bottlenecked by the massive computational overhead of multi-view camera and multi-frame video input. Existing token pruning methods, primarily designed for single-image inputs, treat each frame or view in isolation and thus fail to exploit the inherent spatio-temporal redundancies in driving scenarios. To bridge this gap, we propose ST-Prune, a training-free, plug-and-play framework comprising two complementary modules: Motion-aware Temporal Pruning (MTP) and Ring-view Spatial Pruning (RSP). MTP addresses temporal redundancy by encoding motion volatility and temporal recency as soft constraints within the diversity selection objective, prioritizing dynamic trajectories and current-frame content over static historical background. RSP further resolves spatial redundancy by exploiting the ring-view camera geometry to penalize bilateral cross-view similarity, eliminating duplicate projections and residual background that temporal pruning alone cannot suppress. These two modules together constitute a complete spatio-temporal pruning process, preserving key scene information under strict compression. Validated across four benchmarks spanning perception, prediction, and planning, ST-Prune establishes new state-of-the-art for training-free token pruning. Notably, even at 90\% token reduction, ST-Prune achieves near-lossless performance with certain metrics surpassing the full-model baseline, while maintaining inference speeds comparable to existing pruning approaches.
- Abstract(参考訳): VLM(Vision-Language Models)は、自律走行システムの中心となっているが、マルチビューカメラとマルチフレームビデオ入力の計算オーバーヘッドによって、その展開が著しくボトルネックになっている。
既存のトークンプルーニング手法は、主に単一イメージの入力用に設計されており、それぞれのフレームやビューを独立して扱うため、駆動シナリオに固有の時空間冗長性を利用することができない。
このギャップを埋めるために,ST-Pruneを提案する。ST-Pruneは2つの相補的なモジュール,Motion-Aware Temporal Pruning (MTP) と Ring-view Spatial Pruning (RSP) で構成されている。
MTPは、動的軌跡と静的な背景上の現在のフレーム内容の優先順位を優先し、多様性選択対象内のソフト制約として、動きのボラティリティと時間的電流を符号化することで、時間的冗長性に対処する。
RSPは、リングビューカメラ幾何を利用して、両側のクロスビュー類似性をペナルティ化し、時間的プルーニングだけでは抑制できない、重複した投影と残留背景を取り除くことにより、空間的冗長性をさらに解決する。
これら2つのモジュールは、厳密な圧縮の下でキーシーン情報を保存し、完全な時空間プルーニングプロセスを構成する。
ST-Pruneは、知覚、予測、計画にまたがる4つのベンチマークで検証され、トレーニング不要なトークンプルーニングのための新しい最先端技術を確立している。
特に、90\%のトークン削減でも、ST-Pruneは、既存のプルーニングアプローチに匹敵する推論速度を維持しながら、フルモデルベースラインを超える特定のメトリクスで、ほぼ無作為なパフォーマンスを達成する。
関連論文リスト
- Inference-Time Temporal Probability Smoothing for Stable Video Segmentation with SAM2 under Weak Prompts [0.0]
提案するフレームワークは軽量で、モデルに依存しず、リアルタイムでインタラクティブなビデオセグメンテーションに適している。
提案手法は,フレームワイドおよび時間安定性指標の総合的セットを用いて,4つの多様な映像系列に対して評価する。
論文 参考訳(メタデータ) (2026-04-18T19:16:22Z) - V-CAST: Video Curvature-Aware Spatio-Temporal Pruning for Efficient Video Large Language Models [48.80617385008755]
ビデオ言語モデル(VideoLLMs)は理解に強い能力を示すが、長いコンテキスト推論はプリフィル段階では巨大な冗長な視覚トークンに支配されている。
長文ビデオ推論のための訓練不要なプラグアンドプレイプルーニングポリシーであるV-CASTを提案する。
論文 参考訳(メタデータ) (2026-03-29T11:53:32Z) - Accelerating Structured Chain-of-Thought in Autonomous Vehicles [55.78214218065611]
チェーン・オブ・ソート(CoT)推論は、自律運転における視覚言語行動モデルの意思決定能力を高める。
FastDriveCoTはテンプレート構造CoTを高速化する新しい並列復号法である。
論文 参考訳(メタデータ) (2026-02-02T22:14:26Z) - Error-Propagation-Free Learned Video Compression With Dual-Domain Progressive Temporal Alignment [92.57576987521107]
両ドメインのプログレッシブな時間的アライメントと品質条件の混合(QCMoE)を備えた新しい統合変換フレームワークを提案する。
QCMoEは、魅力的なR-Dパフォーマンスで連続的かつ一貫したレート制御を可能にする。
実験結果から,提案手法は最先端技術と比較して,競争力のあるR-D性能を実現することが示された。
論文 参考訳(メタデータ) (2025-12-11T09:14:51Z) - PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。
bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-23T03:52:39Z) - Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [97.66080040613726]
特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。
圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - ResidualViT for Efficient Temporally Dense Video Encoding [66.57779133786131]
我々は,時間的に密集したタスクに対する計算機能のコスト削減に3つの貢献をしている。
まず、ビデオの時間的冗長性を活用するビジョントランスフォーマー(ViT)アーキテクチャ、ResidualViTを紹介する。
第2に,原基礎モデルのフレームレベルの特徴を近似する軽量蒸留方式を提案する。
論文 参考訳(メタデータ) (2025-09-16T17:12:23Z) - Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [28.38307253613529]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。
MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-08T16:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。