論文の概要: Language-Guided Temporal Token Pruning for Efficient VideoLLM Processing
- arxiv url: http://arxiv.org/abs/2508.17686v1
- Date: Mon, 25 Aug 2025 05:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.648666
- Title: Language-Guided Temporal Token Pruning for Efficient VideoLLM Processing
- Title(参考訳): 効率的なビデオLLM処理のための言語誘導型テンポラルトケンプルーニング
- Authors: Yogesh Kumar,
- Abstract要約: 視覚言語モデル(VLM)は、注意機構の複雑さのために長めのビデオに苦しむ。
本稿では,クエリからの時間的手がかりを利用して,適応的にビデオトークンを作成可能な言語誘導型時間的トケンプルーニング(LGTTP)を提案する。
モデルに依存しないフレームワークはTimeChatやLLaVA-Videoと統合され,オリジナル性能の97~99%を保ちながら,計算の65%の削減を実現している。
- 参考スコア(独自算出の注目度): 2.648500779572419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) struggle with long-form videos due to the quadratic complexity of attention mechanisms. We propose Language-Guided Temporal Token Pruning (LGTTP), which leverages temporal cues from queries to adaptively prune video tokens, preserving contextual continuity while reducing computational overhead. Unlike uniform pruning or keyframe selection, LGTTP retains higher token density in temporally relevant segments. Our model-agnostic framework integrates with TimeChat and LLaVA-Video, achieving a 65% reduction in computation while preserving 97-99% of the original performance. On QVHighlights, LGTTP improves HIT@1 by +9.5%, and on Charades-STA, it retains 99.6% of R@1. It excels on queries with explicit temporal markers and remains effective across general video understanding tasks.
- Abstract(参考訳): 視覚言語モデル(VLM)は、注意機構の二次的な複雑さのために長めのビデオに苦しむ。
本稿では,クエリからの時間的キューを利用してビデオトークンを適応的にプループし,コンテクストの連続性を保ちながら計算オーバーヘッドを低減できる言語ガイド型テンポラルトケンプルーニング(LGTTP)を提案する。
均一なプルーニングやキーフレーム選択とは異なり、LGTTPは時間的に関連するセグメントにおいてより高いトークン密度を保持する。
モデルに依存しないフレームワークはTimeChatやLLaVA-Videoと統合され,オリジナル性能の97~99%を保ちながら,計算の65%の削減を実現している。
QVHighlightsでは、LGTTPはHIT@1を+9.5%改善し、Charades-STAではR@1の99.6%を維持している。
明確な時間的マーカーを持つクエリに優れ、一般的なビデオ理解タスクで有効である。
関連論文リスト
- Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models [61.11154533305096]
ビデオ大言語モデル(VLLM)は、強力なビデオ理解を示すが、冗長な視覚トークンによる非効率性に悩まされる。
フレーム内およびフレーム間コンテキスト内でトークン textbfAnchors を詳述する新しい視点を提案する。
提案するAOTは,先行するビデオLLMのショート・ビデオベンチマークとロング・ビデオベンチマークの競合性能を比較検討する。
論文 参考訳(メタデータ) (2026-03-02T03:06:40Z) - Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。
我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2025-10-15T19:14:58Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - DATE: Dynamic Absolute Time Enhancement for Long Video Understanding [8.720269393713451]
長期ビデオ理解はマルチモーダル大言語モデル(MLLM)の根本的な課題であり続けている
MLLMにおける時間的意識を高める動的絶対時間拡張(DATE)を提案する。
本稿では,意味的関連性と時間的関連性の両方を保証するための2段階アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-11T08:49:22Z) - Temporal Cluster Assignment for Efficient Real-Time Video Segmentation [9.248291541710781]
ビジョントランスフォーマーは、画像ドメインとビデオドメインの両方にわたるセグメンテーションモデルの性能を大幅に向上させた。
Swinのウィンドウベースのアテンションメカニズムは、ウィンドウ毎に一定数のトークンを必要とするため、従来のプルーニング技術の適用性が制限される。
時間的コヒーレンスを活用してトークンクラスタリングを強化する軽量かつ効果的で微調整のない戦略である時間的クラスタ割り当て(TCA)を導入する。
論文 参考訳(メタデータ) (2025-08-07T20:52:49Z) - DisTime: Distribution-based Time Representation for Video Large Language Models [23.176698643825123]
DisTimeは、ビデオLLMにおける時間的理解を強化するために設計された軽量フレームワークである。
DisTimeは、連続的な時間的埋め込みスペースを作成するために学習可能なトークンを使用する。
DisTimeは3つの時間に敏感なタスクでベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-30T08:10:18Z) - InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z) - Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation [20.67434288227437]
ViLAMPは階層型ビデオ言語モデルで、1時間の動画を「混合精度」で処理する
ViLAMPは、非キーフレームを最も健全な特徴に減らしながら、完全な情報を保持し、混合精度のトレーニングに似ている。
特にViLAMPは、単一のNVIDIA A100 GPU上で超長いビデオ(最大10Kフレーム)を処理できる。
論文 参考訳(メタデータ) (2025-04-03T09:55:09Z) - TimeLoc: A Unified End-to-End Framework for Precise Timestamp Localization in Long Videos [50.04992164981131]
ビデオの時間的ローカライゼーションは、ビデオの理解には不可欠だが、それでも難しい。
このタスクは、時間的アクションローカライゼーション、時間的ビデオグラウンドニング、モーメント検索、ジェネリックイベント境界検出など、いくつかのサブタスクを含む。
複数のタスクを処理できるタイムスタンプローカライゼーションのための統合エンドツーエンドフレームワークであるTimeLocを提案する。
論文 参考訳(メタデータ) (2025-03-09T09:11:26Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。