論文の概要: ForestPrune: High-ratio Visual Token Compression for Video Multimodal Large Language Models via Spatial-Temporal Forest Modeling
- arxiv url: http://arxiv.org/abs/2603.22911v1
- Date: Tue, 24 Mar 2026 08:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.370308
- Title: ForestPrune: High-ratio Visual Token Compression for Video Multimodal Large Language Models via Spatial-Temporal Forest Modeling
- Title(参考訳): ForestPrune:空間的テンポラルフォレストモデリングによるビデオマルチモーダル大言語モデルの高比視覚的トーケン圧縮
- Authors: Shaobo Ju, Baiyang Song, Tao Chen, Jiapeng Zhang, Qiong Wu, Chao Chang, HuaiXi Wang, Yiyi Zhou, Rongrong Ji,
- Abstract要約: 本研究では,フォレストプルーンと呼ばれるビデオMLLMの新規かつトレーニング不要なトークン解析手法を提案する。
ForestPruneは、時空間フォレストモデリングによる効果的で高率な伐採を実現する。
実際には、フォレストプルーンは意味的制約、空間的制約、時間的制約に基づいてビデオフレームにトークンフォレストを構築している。
- 参考スコア(独自算出の注目度): 58.993082360672645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the great saving of computation and memory overhead, token compression has become a research hot-spot for MLLMs and achieved remarkable progress in image-language tasks. However, for the video, existing methods still fall short of high-ratio token compression. We attribute this shortcoming to the insufficient modeling of temporal and continual video content, and propose a novel and training-free token pruning method for video MLLMs, termed ForestPrune, which achieves effective and high-ratio pruning via Spatial-temporal Forest Modeling. In practice, ForestPrune construct token forests across video frames based on the semantic, spatial and temporal constraints, making an overall comprehension of videos. Afterwards, ForestPrune evaluates the importance of token trees and nodes based on tree depth and node roles, thereby obtaining a globally optimal pruning decision. To validate ForestPrune, we apply it to two representative video MLLMs, namely LLaVA-Video and LLaVA-OneVision, and conduct extensive experiments on a bunch of video benchmarks. The experimental results not only show the great effectiveness for video MLLMs, e.g., retaining 95.8% average accuracy while reducing 90% tokens for LLaVA-OneVision, but also show its superior performance and efficiency than the compared token compression methods, e.g., +10.1% accuracy on MLVU and -81.4% pruning time than FrameFusion on LLaVA-Video.
- Abstract(参考訳): 計算とメモリオーバーヘッドの大幅な削減により、トークン圧縮はMLLMの研究ホットスポットとなり、画像言語タスクにおいて顕著な進歩を遂げた。
しかし、ビデオでは、既存の手法は高比のトークン圧縮に欠けていた。
本研究では,時間的・連続的な映像コンテンツのモデリングが不十分であることから,時間的・時間的フォレストモデリングによる効果的かつ高比率のプルーニングを実現するビデオMLLMの新規かつトレーニング不要なトークン・プルーニング手法を提案する。
実際には、フォレストプルーンは意味的制約、空間的制約、時間的制約に基づいてビデオフレームにトークンフォレストを構築する。
その後、フォレストプルーンは木深度とノードの役割に基づいてトークンツリーとノードの重要性を評価し、グローバルに最適なプルーニング決定を得る。
ForestPruneを検証するために、LLaVA-VideoとLLaVA-OneVisionの2つの代表的ビデオMLLMに適用し、多数のビデオベンチマークで広範な実験を行う。
LLaVA-OneVisionの90%のトークンを削減しつつ、95.8%の平均精度を保ちながら、MLVUでは+10.1%の精度、LLaVA-Videoでは-81.4%のプルーニング時間で比較したトークン圧縮法よりも優れた性能と効率を示した。
関連論文リスト
- EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs [11.74199552426475]
EvoPruneは、ビジュアルエンコーディング中に直接プルーニングを実行するMLLMのアーリーステージのビジュアルトークンプルーニング手法である。
EvoPruneは、1%未満のパフォーマンス劣化を伴う2$times$推論スピードアップを実現し、レイテンシに敏感なMLLMデプロイメントの可能性を示している。
論文 参考訳(メタデータ) (2026-03-04T03:15:14Z) - Variation-aware Vision Token Dropping for Faster Large Vision-Language Models [24.952668143243542]
大規模視覚言語モデル(LVLM)はマルチモーダル理解タスクにおいて顕著な機能を示した。
トーケン圧縮は、処理されるトークンの数を減らすことにより、計算効率を向上させることにより、直接的な解を提供する。
我々は,LVLM推論中に最小限の変動を伴う視覚トークンを段階的に除去する,変分認識型視覚トークンドロップ(textiti.e., textbfV$2$Drop)を提案する。
論文 参考訳(メタデータ) (2025-09-01T15:28:44Z) - An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。
言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。
トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文 参考訳(メタデータ) (2025-04-21T17:57:21Z) - PruneVid: Visual Token Pruning for Efficient Video Large Language Models [24.889834611542955]
マルチモーダルビデオ理解の効率化を目的とした視覚的トークンプルーニング手法PruneVidを紹介する。
LLMは、視覚的モダリティを解釈する能力の拡張により、ビデオタスクにおいて有望なパフォーマンスを示してきた。
提案手法を複数のビデオベンチマークで検証し,トークンの80%以上をPruneVidが実行可能であることを示す。
論文 参考訳(メタデータ) (2024-12-20T18:01:58Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。