論文の概要: Unified Spatio-Temporal Token Scoring for Efficient Video VLMs
- arxiv url: http://arxiv.org/abs/2603.18004v1
- Date: Wed, 18 Mar 2026 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.878573
- Title: Unified Spatio-Temporal Token Scoring for Efficient Video VLMs
- Title(参考訳): 効率的なビデオVLMのための一元的時空間トコリング
- Authors: Jianrui Zhang, Yue Yang, Rohun Tripathi, Winson Han, Ranjay Krishna, Christopher Clark, Yong Jae Lee, Sangho Lee,
- Abstract要約: トケンプルーニングは視覚言語モデルの計算効率を高めるために不可欠である。
本稿では,視覚トークンを ViT と LLM の両方にわたってプルークする,シンプルで軽量なモジュールである Spatio-Temporal Token Scoring (STTS) を紹介する。
STTSはアーキテクチャ全体の視覚トークンの50%を突破し、トレーニングと推論の両方で効率が62%向上した。
- 参考スコア(独自算出の注目度): 61.08183446817756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token pruning is essential for enhancing the computational efficiency of vision-language models (VLMs), particularly for video-based tasks where temporal redundancy is prevalent. Prior approaches typically prune tokens either (1) within the vision transformer (ViT) exclusively for unimodal perception tasks such as action recognition and object segmentation, without adapting to downstream vision-language tasks; or (2) only within the LLM while leaving the ViT output intact, often requiring complex text-conditioned token selection mechanisms. In this paper, we introduce Spatio-Temporal Token Scoring (STTS), a simple and lightweight module that prunes vision tokens across both the ViT and the LLM without text conditioning or token merging, and is fully compatible with end-to-end training. By learning how to score temporally via an auxiliary loss and spatially via LLM downstream gradients, aided by our efficient packing algorithm, STTS prunes 50% of vision tokens throughout the entire architecture, resulting in a 62% improvement in efficiency during both training and inference with only a 0.7% drop in average performance across 13 short and long video QA tasks. Efficiency gains increase with more sampled frames per video. Applying test-time scaling for long-video QA further yields performance gains of 0.5-1% compared to the baseline. Overall, STTS represents a novel, simple yet effective technique for unified, architecture-wide vision token pruning.
- Abstract(参考訳): トケンプルーニングは視覚言語モデル(VLM)の計算効率を高めるために不可欠である。
従来のアプローチでは、(1) 視覚変換器(ViT)内では、下流の視覚言語タスクに適応することなく、アクション認識やオブジェクトセグメンテーションのような一元的認識タスクにのみ適用されるか、(2) ViT 出力をそのままにして、複雑なテキスト条件のトークン選択機構を必要とする。
本稿では,テキストコンディショニングやトークンマージを使わずに,視覚トークンをViTとLLMの両方にわたって生成する,シンプルで軽量なモジュールであるSpatio-Temporal Token Scoring(STTS)を紹介する。
我々の効率的なパッキングアルゴリズムによって支援されたLLM下流勾配を通して、補助損失と空間的に時間的スコアの方法を学ぶことで、STTSはアーキテクチャ全体を通して50%の視覚トークンを抽出し、トレーニングと推論の間に62%の改善をもたらし、13のショートビデオQAタスクの平均パフォーマンスはわずか0.7%低下した。
効率性はビデオ当たりのサンプルフレームの増加とともに向上する。
長時間ビデオQAにテストタイムスケーリングを適用すると、ベースラインと比較して0.5-1%の性能向上が期待できる。
全体としてSTTSは、統一されたアーキテクチャワイド・ビジョントークン・プルーニングのための、新しくてシンプルで効果的な技術である。
関連論文リスト
- TrajTok: Learning Trajectory Tokens enables better Video Understanding [63.1260672430712]
ビデオモデルのトークン化は、通常、パッチ化によって、過剰で冗長な数のトークンを生成する。
そこで我々は,ビデオモデルと完全に統合され,共にトレーニングされたビデオトークンモジュールであるTrajTokを提案する。
本稿では,前処理した視覚特徴量(TrajAdapter)の探索ヘッドとしてシームレスに統合できるか,特に長ビデオ推論において高い性能を持つ視覚言語モデル(TrajVLM)のアライメントコネクタとして利用できることを示す。
論文 参考訳(メタデータ) (2026-02-26T09:15:34Z) - ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention [22.397648349603696]
ViCAは最小限のMLLMアーキテクチャであり、視覚トークンはすべての自己注意層とフィードフォワード層をバイパスし、選択された層での疎相互注意によってのみテキストと対話する。
ViCAは、ベースライン精度の98%を保ちながら、視覚面を4%に減らし、常に優れた性能と効率のトレードオフを達成している。
論文 参考訳(メタデータ) (2026-02-07T14:46:05Z) - Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - HoliTom: Holistic Token Merging for Fast Video Large Language Models [32.620504076794795]
ビデオ言語モデル(ビデオLLM)は、ビデオ理解において優れるが、冗長なビデオトークンによる計算不効率に直面する。
HoliTomは、新しいトレーニング不要な全体的トークンフレームワークである。
また,内部LLMトークンの類似性に基づくマージ手法を導入する。
論文 参考訳(メタデータ) (2025-05-27T15:28:45Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression [1.8893427856534721]
InternVL-Xは、性能と効率の両方で、InternVLモデルより優れている。
20%以下のビジュアルトークンを利用することで、InternVL-Xは7つのパブリックMLLMベンチマークで最先端のパフォーマンスを達成し、12タスクの平均メトリックを2.34%改善する。
論文 参考訳(メタデータ) (2025-03-27T09:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。