論文の概要: MMG-Vid: Maximizing Marginal Gains at Segment-level and Token-level for Efficient Video LLMs
- arxiv url: http://arxiv.org/abs/2508.21044v1
- Date: Thu, 28 Aug 2025 17:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.544271
- Title: MMG-Vid: Maximizing Marginal Gains at Segment-level and Token-level for Efficient Video LLMs
- Title(参考訳): MMG-Vid:効率的なビデオLLMのためのセグメンションレベルとトークンレベルにおけるマージナルゲインの最大化
- Authors: Junpeng Ma, Qizhe Zhang, Ming Lu, Zhibin Wang, Qiang Zhou, Jun Song, Shanghang Zhang,
- Abstract要約: MMG-Vidは、ビデオ理解のためのトレーニング不要なビジュアルトークンプルーニングフレームワークである。
MMG-Vidはオリジナルのパフォーマンスの99.5%以上を維持でき、視覚トークンの75%を効果的に削減できることを示す。
- 参考スコア(独自算出の注目度): 67.75865317787708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Language Models (VLLMs) excel in video understanding, but their excessive visual tokens pose a significant computational challenge for real-world applications. Current methods aim to enhance inference efficiency by visual token pruning. However, they do not consider the dynamic characteristics and temporal dependencies of video frames, as they perceive video understanding as a multi-frame task. To address these challenges, we propose MMG-Vid, a novel training-free visual token pruning framework that removes redundancy by Maximizing Marginal Gains at both segment-level and token-level. Specifically, we first divide the video into segments based on frame similarity, and then dynamically allocate the token budget for each segment to maximize the marginal gain of each segment. Subsequently, we propose a temporal-guided DPC algorithm that jointly models inter-frame uniqueness and intra-frame diversity, thereby maximizing the marginal gain of each token. By combining both stages, MMG-Vid can maximize the utilization of the limited token budget, significantly improving efficiency while maintaining strong performance. Extensive experiments demonstrate that MMG-Vid can maintain over 99.5% of the original performance, while effectively reducing 75% visual tokens and accelerating the prefilling stage by 3.9x on LLaVA-OneVision-7B. Code will be released soon.
- Abstract(参考訳): ビデオ大言語モデル(VLLM)はビデオ理解に優れるが、その過度な視覚トークンは現実世界のアプリケーションに重大な計算上の課題をもたらす。
現在の手法は、ビジュアルトークンプルーニングによる推論効率の向上を目的としている。
しかし、ビデオ理解を多フレームタスクと捉えているため、ビデオフレームの動的特性や時間的依存性を考慮しない。
MMG-Vidは,マージナルゲインをセグメントレベルとトークンレベルの両方で最大化することにより冗長性を解消する新しいトレーニングフリーなビジュアルトークン解析フレームワークである。
具体的には、まずフレームの類似性に基づいてセグメントに分割し、次に各セグメントのトークン予算を動的に割り当て、各セグメントのマージンゲインを最大化する。
次に,フレーム間の一意性とフレーム内多様性を協調的にモデル化し,各トークンの限界ゲインを最大化する時間誘導型DPCアルゴリズムを提案する。
両段階を組み合わせることで、MMG-Vidは限られたトークン予算の利用を最大化し、高い性能を維持しながら効率を大幅に向上させることができる。
大規模な実験では、MMG-Vidはオリジナルの性能の99.5%以上を維持でき、75%の視覚トークンを効果的に削減し、LLaVA-OneVision-7Bでプリフィルステージを3.9倍加速することを示した。
コードはまもなくリリースされる。
関連論文リスト
- HoliTom: Holistic Token Merging for Fast Video Large Language Models [26.78285189552602]
ビデオ言語モデル(ビデオLLM)は、ビデオ理解において優れるが、冗長なビデオトークンによる計算不効率に直面する。
HoliTomは、新しいトレーニング不要な全体的トークンフレームワークである。
また,内部LLMトークンの類似性に基づくマージ手法を導入する。
論文 参考訳(メタデータ) (2025-05-27T15:28:45Z) - CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms [16.41418610688371]
性能劣化を最小限に抑えた視覚トークン量を大幅に削減するCrossLMMを提案する。
また,テキスト・ツー・ビジュアル・クロスアテンション機構を導入し,テキスト・トークンを元のビジュアル・トークンとのインタラクションによって拡張する。
提案手法は,多様なビデオベース大規模言語モデルベンチマークにおいて,同等あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2025-05-22T17:59:53Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。