論文の概要: Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs
- arxiv url: http://arxiv.org/abs/2507.07990v1
- Date: Thu, 10 Jul 2025 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.535829
- Title: Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs
- Title(参考訳): ビデオLLMの学習自由加速のための多角形時空間トケマージ
- Authors: Jeongseok Hyun, Sukjun Hwang, Su Ho Han, Taeoh Kim, Inwoong Lee, Dongyoon Wee, Joon-Young Lee, Seon Joo Kim, Minho Shim,
- Abstract要約: ビデオ言語モデル(LLM)は、大量の時間トークンを活用することで、強力なビデオ理解を実現するが、2次計算スケーリングに苦しむ。
そこで本研究では,STTMと呼ばれるトレーニングフリーの時間トークンマージ手法を提案する。
我々の重要な洞察は、作業中に見過ごされたビデオデータにおける局所的空間的および時間的冗長性を活用することである。
- 参考スコア(独自算出の注目度): 45.52960437068249
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video large language models (LLMs) achieve strong video understanding by leveraging a large number of spatio-temporal tokens, but suffer from quadratic computational scaling with token count. To address this, we propose a training-free spatio-temporal token merging method, named STTM. Our key insight is to exploit local spatial and temporal redundancy in video data which has been overlooked in prior work. STTM first transforms each frame into multi-granular spatial tokens using a coarse-to-fine search over a quadtree structure, then performs directed pairwise merging across the temporal dimension. This decomposed merging approach outperforms existing token reduction methods across six video QA benchmarks. Notably, STTM achieves a 2$\times$ speed-up with only a 0.5% accuracy drop under a 50% token budget, and a 3$\times$ speed-up with just a 2% drop under a 30% budget. Moreover, STTM is query-agnostic, allowing KV cache reuse across different questions for the same video. The project page is available at https://www.jshyun.me/projects/sttm.
- Abstract(参考訳): ビデオ大言語モデル(LLM)は、多数の時空間トークンを活用することで、強力なビデオ理解を実現するが、トークン数による2次計算スケーリングに苦しむ。
そこで本研究では,STTMという,トレーニング不要な時空間トークンマージ手法を提案する。
我々の重要な洞察は、以前の作業で見過ごされたビデオデータの局所的空間的および時間的冗長性を活用することである。
STTMはまず,各フレームをクワッドツリー構造上の粗いサーチを用いて多次元空間トークンに変換する。
この分解されたマージアプローチは、6つのビデオQAベンチマークで既存のトークン削減手法より優れている。
特に、STTMは50%のトークン予算で0.5%の精度で2$\times$のスピードアップを達成し、30%の予算でわずか2%のダウンで3$\times$のスピードアップを達成している。
さらに、STTMはクエリに依存しないため、KVキャッシュを同じビデオに対して異なる質問で再利用することができる。
プロジェクトのページはhttps://www.jshyun.me/projects/sttm.comで公開されている。
関連論文リスト
- Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - $R^2$-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding [41.69321731689751]
ビデオの時間的グラウンドは、自然言語のクェリが与えられたビデオに関連性のあるクリップを埋めることを目的としている。
既存のVTGモデルは、フレームワイドのファイナルレイヤCLIP機能に基づいて構築されており、追加の時間バックボーンによって支援されている。
ビデオ時間的グラウンド化のためのパラメータとメモリ効率の変換学習フレームワークであるReversed Recurrent Tuning(R2$-Tuning)を提案する。
論文 参考訳(メタデータ) (2024-03-31T21:17:48Z) - Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation [89.88214896713846]
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。
市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。
結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
論文 参考訳(メタデータ) (2023-08-08T19:38:15Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。