論文の概要: LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs
- arxiv url: http://arxiv.org/abs/2506.21862v1
- Date: Fri, 27 Jun 2025 02:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.05812
- Title: LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs
- Title(参考訳): LLaVA-Scissor:ビデオLLM用セマンティック接続部品を用いたトーケン圧縮
- Authors: Boyuan Sun, Jiaxing Zhao, Xihan Wei, Qibin Hou,
- Abstract要約: LLaVA-Scissorは、マルチモーダルな大規模言語モデルのために設計された、トレーニング不要なトークン圧縮戦略である。
本稿では,セマンティック・コネクテッド・コンポーネント(SCC)のアプローチを活用し,包括的セマンティック・カバレッジを確保することを提案する。
我々は,LLaVA-Scissorのトークン圧縮性能を多様なビデオ理解ベンチマークで広範囲に評価する。
- 参考スコア(独自算出の注目度): 23.801172170798132
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present LLaVA-Scissor, a training-free token compression strategy designed for video multimodal large language models. Previous methods mostly attempt to compress tokens based on attention scores, but fail to effectively capture all semantic regions and often lead to token redundancy. Differently, we propose to leverage the Semantic Connected Components (SCC) approach that assigns tokens to distinct semantic regions within the token set, ensuring comprehensive semantic coverage. The outcome is a two-step spatio-temporal token compression strategy that utilizes SCC in both spatial and temporal domains. This strategy can effectively compress tokens by representing the entire video with a set of non-overlapping semantic tokens. We conduct extensive evaluations of the token compression capabilities of LLaVA-Scissor across diverse video understanding benchmarks, including video question answering, long video understanding, and comprehensive multi-choices benchmarks. Experimental results show that the proposed LLaVA-Scissor outperforms other token compression methods, achieving superior performance in various video understanding benchmarks, particularly at low token retention ratios. Project page: https://github.com/HumanMLLM/LLaVA-Scissor.
- Abstract(参考訳): 本稿では,ビデオマルチモーダル大言語モデルのためのトレーニング不要なトークン圧縮戦略であるLLaVA-Scissorを提案する。
従来の方法は、主に注意スコアに基づいてトークンを圧縮しようとするが、すべての意味領域を効果的にキャプチャできず、しばしばトークンの冗長性につながる。
そこで我々は,トークン集合内の異なるセマンティック領域にトークンを割り当て,包括的セマンティックカバレッジを確保するセマンティック接続コンポーネント(SCC)アプローチを提案する。
その結果、空間領域と時間領域の両方でSCCを利用する2段階の時空間トークン圧縮戦略が得られた。
この戦略は、ビデオ全体を重複しないセマンティックトークンのセットで表現することで、トークンを効果的に圧縮することができる。
我々は,LLaVA-Scissorのトークン圧縮能力について,ビデオ質問応答,長いビデオ理解,総合的マルチ選択ベンチマークなど,多様なビデオ理解ベンチマークで広範囲に評価する。
実験結果から,LLaVA-Scissorは他のトークン圧縮法よりも優れており,特に低トークン保持率において,様々なビデオ理解ベンチマークにおいて優れた性能を発揮することが示された。
プロジェクトページ: https://github.com/HumanMLLM/LLaVA-Scissor
関連論文リスト
- Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models [36.16630765077807]
MLLM(HICom)における条件付きトーケン圧縮のためのハイブリッドレベルのインストラクションインジェクション戦略を提案する。
ローカルレベルとグローバルレベルの両方から圧縮を誘導する条件として,この命令を使用する。
実験の結果、HIComは少ないトークンで優れた映像理解能力を得ることができることがわかった。
論文 参考訳(メタデータ) (2025-03-20T11:09:18Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models [28.311125014789905]
グローバル圧縮コマンド(Global Compression Commander、GlobalCom$2$)は、HR-LVLM用の新しいプラグアンドプレイトークン圧縮フレームワークである。
実験の結果,GlobalCom$2$は90%以上の視覚トークンを圧縮しながら90%以上の性能を維持していることがわかった。
論文 参考訳(メタデータ) (2025-01-09T11:57:58Z) - PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models [64.9366388601049]
ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。
我々は,プログレッシブ・ビジュアル・トークン圧縮と呼ばれる統一的なトークン圧縮戦略を導入する。
本モデルは,様々なビデオ理解ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-12T18:59:40Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文 参考訳(メタデータ) (2022-11-21T13:12:44Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。