論文の概要: FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2511.00141v1
- Date: Fri, 31 Oct 2025 17:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.641366
- Title: FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding
- Title(参考訳): FLoC:長時間ビデオ理解のための施設位置に基づく効率的な視覚トーケン圧縮
- Authors: Janghoon Cho, Jungsoo Lee, Munawar Hayat, Kyuwoong Hwang, Fatih Porikli, Sungha Choi,
- Abstract要約: FLoCは、施設位置関数に基づく効率的なビジュアルトークン圧縮フレームワークである。
本手法は,トークンのコンパクトな部分集合を迅速に選択することにより,顕著な効率向上を実現する。
私たちのアプローチは、トレーニング不要、モデル非依存、クエリ非依存で、汎用的なソリューションを提供しています。
- 参考スコア(独自算出の注目度): 55.700832127331324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies in long video understanding have harnessed the advanced visual-language reasoning capabilities of Large Multimodal Models (LMMs), driving the evolution of video-LMMs specialized for processing extended video sequences. However, the scalability of these models is severely limited by the overwhelming volume of visual tokens generated from extended video sequences. To address this challenge, this paper proposes FLoC, an efficient visual token compression framework based on the facility location function, a principled approach that swiftly selects a compact yet highly representative and diverse subset of visual tokens within a predefined budget on the number of visual tokens. By integrating the lazy greedy algorithm, our method achieves remarkable efficiency gains by swiftly selecting a compact subset of tokens, drastically reducing the number of visual tokens while guaranteeing near-optimal performance. Notably, our approach is training-free, model-agnostic, and query-agnostic, providing a versatile solution that seamlessly integrates with diverse video-LLMs and existing workflows. Extensive evaluations on large-scale benchmarks, such as Video-MME, MLVU, and LongVideoBench, demonstrate that our framework consistently surpasses recent compression techniques, highlighting not only its effectiveness and robustness in addressing the critical challenges of long video understanding, but also its efficiency in processing speed.
- Abstract(参考訳): 近年,LMM(Large Multimodal Models)の高度な視覚言語推論機能を活用し,拡張ビデオシーケンス処理に特化したビデオLMMの進化を推し進めている。
しかし、これらのモデルのスケーラビリティは、拡張されたビデオシーケンスから生成される視覚トークンの圧倒的な量によって著しく制限されている。
この課題に対処するために,FLoCを提案する。FLoCは施設位置関数に基づく効率的な視覚トークン圧縮フレームワークであり,視覚トークン数に基づいて予め定義された予算内で,コンパクトで代表的で多様な視覚トークンのサブセットを迅速に選択する原理的アプローチである。
遅延グリーディアルゴリズムを統合することにより,トークンのコンパクトなサブセットを迅速に選択し,ほぼ最適性能を確保しつつ,視覚トークンの数を劇的に削減することで,顕著な効率向上を実現する。
トレーニング不要、モデル非依存、クエリ非依存で、多様なビデオLLMや既存のワークフローとシームレスに統合する汎用的なソリューションを提供しています。
ビデオMME,MLVU,LongVideoBenchなどの大規模ベンチマークの大規模な評価は,我々のフレームワークが最近の圧縮技術を一貫して超越していることを示し,長大なビデオ理解における重要な課題に対処する上での有効性と堅牢性だけでなく,処理速度の効率も強調している。
関連論文リスト
- CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms [16.41418610688371]
性能劣化を最小限に抑えた視覚トークン量を大幅に削減するCrossLMMを提案する。
また,テキスト・ツー・ビジュアル・クロスアテンション機構を導入し,テキスト・トークンを元のビジュアル・トークンとのインタラクションによって拡張する。
提案手法は,多様なビデオベース大規模言語モデルベンチマークにおいて,同等あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2025-05-22T17:59:53Z) - FiLA-Video: Spatio-Temporal Compression for Fine-Grained Long Video Understanding [17.71123451197036]
ビデオデータの複雑さとコンテキスト処理の制限は、長いビデオの理解を妨げる。
本稿では,複数のフレームを単一の表現に統合する新しいフレームワークであるFiLA-Videoを提案する。
FiLA-Videoは、従来の方法に比べて、長時間ビデオ理解において優れた効率と精度を実現している。
論文 参考訳(メタデータ) (2025-04-29T03:09:46Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。