論文の概要: TTF: Temporal Token Fusion for Efficient Video-Language Model
- arxiv url: http://arxiv.org/abs/2605.07355v1
- Date: Fri, 08 May 2026 07:08:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.877224
- Title: TTF: Temporal Token Fusion for Efficient Video-Language Model
- Title(参考訳): TTF:高能率ビデオ言語モデルのためのテンポラルトークンフュージョン
- Authors: Simin Huo, Ning LI,
- Abstract要約: ビデオ言語モデル(VLM)は、ビデオの長さで視覚トークンがスケールするにつれて、高速な推論コストに直面している。
トレーニング不要でプラグアンドプレイのプリLLMトークン圧縮フレームワークであるTTFを提案する。
- 参考スコア(独自算出の注目度): 2.5885108031811006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-language models (VLMs) face rapid inference costs as visual token counts scale with video length. For example, 32 frames at $448{\times}448$ resolution already yield >8,000 visual tokens in Qwen3-VL, making LLM prefill the dominant throughput bottleneck. Existing methods often rely on global similarity or attention-guided compression, incurring offsets to their gains. We propose \textbf{Temporal Token Fusion (TTF)}, a training-free, plug-and-play pre-LLM token compression framework that exploits structured temporal redundancy in video. TTF automatically selects an anchor frame, then for each subsequent frame, performs a local window similarity search (e.g.,$3\times 3$), fusing tokens that exceed a threshold. The compressed sequence maintains positional consistency across both prefill and decoding through coordinate realignment, enabling seamless integration with existing VLM pipelines. On Qwen3-VL-8B with threshold t=0.70, TTF removes about 67\% of visual tokens while retaining 99.5\% of the baseline accuracy and introducing only ${\approx}0.16$\,GFLOPs of matching overhead. Overall, TTF offers a practical, efficient solution for video understanding. The code is available at \href{https://github.com/Cominder/ttf}{https://github.com/Cominder/ttf}
- Abstract(参考訳): ビデオ言語モデル(VLM)は、ビデオの長さで視覚トークンがスケールするにつれて、高速な推論コストに直面している。
例えば、448{\times}448$解像度の32フレームでは、Qwen3-VLで8,000以上の視覚トークンが発生しており、LLMは主要なスループットボトルネックを埋める。
既存の方法は、しばしばグローバルな類似性や注意誘導圧縮に依存し、利得に相反する。
本稿では,ビデオにおける時間的冗長性を利用した,トレーニング不要でプラグアンドプレイのプリLLMトークン圧縮フレームワークである‘textbf{Temporal Token Fusion(TTF)’を提案する。
TTFは自動的にアンカーフレームを選択し、その後の各フレームはローカルウィンドウ類似性検索(例えば、$3\times 3$)を行い、しきい値を超えるトークンを融合させる。
圧縮シーケンスは、プリフィルとデコードの両方で位置整合性を維持し、既存のVLMパイプラインとのシームレスな統合を可能にする。
閾値 t=0.70 の Qwen3-VL-8B では、TTF はベースラインの精度の 99.5 % を維持しながら視覚トークンの 67 % を除去し、マッチングオーバーヘッドの ${\approx}0.16$\,GFLOPs のみを導入している。
全体として、TTFはビデオ理解のための実用的で効率的なソリューションを提供する。
コードは \href{https://github.com/Cominder/ttf}{https://github.com/Cominder/ttf} で公開されている。
関連論文リスト
- One Token per Highly Selective Frame: Towards Extreme Compression for Long Video Understanding [51.08792182064565]
長いビデオ理解は、膨大なフレーム数のため、視覚言語モデル(VLM)にとって本質的に困難である。
通常、ビデオフレームは数十から数百のトークンに拡張されるため、大きな言語モデル(LLM)のコンテキスト長は制限され、VLMはフレームをわずかに知覚し、時間的情報を失う。
本稿では,XComp という長大なビデオ理解のための極端な圧縮モデルを提案する。
論文 参考訳(メタデータ) (2026-04-15T17:59:52Z) - Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory [50.30283773196725]
既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
論文 参考訳(メタデータ) (2026-02-20T18:59:50Z) - PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective [59.24570811503256]
本稿では,視覚モデル(VLM)における冗長な視覚トークンを減らし,推論を高速化するPIO-FVLMを提案する。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持している。
論文 参考訳(メタデータ) (2026-02-04T15:33:10Z) - ConsensusDrop: Fusing Visual and Cross-Modal Saliency for Efficient Vision Language Models [4.273730624882391]
視覚言語モデル(VLM)は、LLMが数百のほとんど冗長な視覚トークンを処理するため、高価である。
いずれの信号も十分ではないことが示される: それらを融合することで、一意的な視覚トークン選択(ランキング)に比べて、一貫して性能が向上する。
textbfConsensusDropは、視覚エンコーダのサリエンシをクエリ対応のクロスアテンションと整合させることにより、アンフコンセンサスランキングを導出する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-02-01T00:28:55Z) - StreamingTOM: Streaming Token Compression for Efficient Video Understanding [6.9203477336374775]
既存のアプローチはLLM後のkv-cacheのみを規制し、コストのかかるLLM前のプリフィルは変わらない。
StreamingTOMは,LLM前とLLM後の両方のボトルネックに,予測可能なレイテンシで対処する,トレーニングフリーでプラグイン&プレイの2段階フレームワークです。
実験では, 従来のSOTAと比較して, 15.7 時間で kv-cache 圧縮, 12 時間で低ピークメモリ, 2 時間で速い TTFT 圧縮を実現している。
論文 参考訳(メタデータ) (2025-10-21T03:39:41Z) - FrameFusion: Combining Similarity and Importance for Video Token Reduction on Large Vision Language Models [17.796102228521693]
既存のトークン削減手法は主に累積アテンションスコアなどの重要な指標に基づいたプルーーントークンである。
本稿では、類似性に基づくマージと重要度に基づくプルーニングを組み合わせた新しいトークン削減手法であるFrameFusionを提案する。
実験の結果、FrameFusionは視覚トークンを70%削減し、1.6-3.6倍のエンドツーエンドのスピードアップを実現し、平均的なパフォーマンスへの影響は3%未満である。
論文 参考訳(メタデータ) (2024-12-30T17:31:37Z) - Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction [93.69757398746017]
CoordTokは、座標ベースの表現から入力ビデオの対応するパッチへのマッピングを学ぶビデオトークンである。
CoordTokは、ビデオを分解された三面体表現にエンコードし、ランダムにサンプリングされた$(x,y,t)$座標に対応するパッチを再構築する。
論文 参考訳(メタデータ) (2024-11-22T06:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。