論文の概要: Language-Guided Temporal Token Pruning for Efficient VideoLLM Processing
- arxiv url: http://arxiv.org/abs/2508.17686v1
- Date: Mon, 25 Aug 2025 05:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.648666
- Title: Language-Guided Temporal Token Pruning for Efficient VideoLLM Processing
- Title(参考訳): 効率的なビデオLLM処理のための言語誘導型テンポラルトケンプルーニング
- Authors: Yogesh Kumar,
- Abstract要約: 視覚言語モデル(VLM)は、注意機構の複雑さのために長めのビデオに苦しむ。
本稿では,クエリからの時間的手がかりを利用して,適応的にビデオトークンを作成可能な言語誘導型時間的トケンプルーニング(LGTTP)を提案する。
モデルに依存しないフレームワークはTimeChatやLLaVA-Videoと統合され,オリジナル性能の97~99%を保ちながら,計算の65%の削減を実現している。
- 参考スコア(独自算出の注目度): 2.648500779572419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) struggle with long-form videos due to the quadratic complexity of attention mechanisms. We propose Language-Guided Temporal Token Pruning (LGTTP), which leverages temporal cues from queries to adaptively prune video tokens, preserving contextual continuity while reducing computational overhead. Unlike uniform pruning or keyframe selection, LGTTP retains higher token density in temporally relevant segments. Our model-agnostic framework integrates with TimeChat and LLaVA-Video, achieving a 65% reduction in computation while preserving 97-99% of the original performance. On QVHighlights, LGTTP improves HIT@1 by +9.5%, and on Charades-STA, it retains 99.6% of R@1. It excels on queries with explicit temporal markers and remains effective across general video understanding tasks.
- Abstract(参考訳): 視覚言語モデル(VLM)は、注意機構の二次的な複雑さのために長めのビデオに苦しむ。
本稿では,クエリからの時間的キューを利用してビデオトークンを適応的にプループし,コンテクストの連続性を保ちながら計算オーバーヘッドを低減できる言語ガイド型テンポラルトケンプルーニング(LGTTP)を提案する。
均一なプルーニングやキーフレーム選択とは異なり、LGTTPは時間的に関連するセグメントにおいてより高いトークン密度を保持する。
モデルに依存しないフレームワークはTimeChatやLLaVA-Videoと統合され,オリジナル性能の97~99%を保ちながら,計算の65%の削減を実現している。
QVHighlightsでは、LGTTPはHIT@1を+9.5%改善し、Charades-STAではR@1の99.6%を維持している。
明確な時間的マーカーを持つクエリに優れ、一般的なビデオ理解タスクで有効である。
関連論文リスト
- Temporal Cluster Assignment for Efficient Real-Time Video Segmentation [9.248291541710781]
ビジョントランスフォーマーは、画像ドメインとビデオドメインの両方にわたるセグメンテーションモデルの性能を大幅に向上させた。
Swinのウィンドウベースのアテンションメカニズムは、ウィンドウ毎に一定数のトークンを必要とするため、従来のプルーニング技術の適用性が制限される。
時間的コヒーレンスを活用してトークンクラスタリングを強化する軽量かつ効果的で微調整のない戦略である時間的クラスタ割り当て(TCA)を導入する。
論文 参考訳(メタデータ) (2025-08-07T20:52:49Z) - DisTime: Distribution-based Time Representation for Video Large Language Models [23.176698643825123]
DisTimeは、ビデオLLMにおける時間的理解を強化するために設計された軽量フレームワークである。
DisTimeは、連続的な時間的埋め込みスペースを作成するために学習可能なトークンを使用する。
DisTimeは3つの時間に敏感なタスクでベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-30T08:10:18Z) - InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z) - TimeLoc: A Unified End-to-End Framework for Precise Timestamp Localization in Long Videos [50.04992164981131]
ビデオの時間的ローカライゼーションは、ビデオの理解には不可欠だが、それでも難しい。
このタスクは、時間的アクションローカライゼーション、時間的ビデオグラウンドニング、モーメント検索、ジェネリックイベント境界検出など、いくつかのサブタスクを含む。
複数のタスクを処理できるタイムスタンプローカライゼーションのための統合エンドツーエンドフレームワークであるTimeLocを提案する。
論文 参考訳(メタデータ) (2025-03-09T09:11:26Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。