論文の概要: Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2512.01949v1
- Date: Mon, 01 Dec 2025 17:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.007087
- Title: Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models
- Title(参考訳): Script: マルチモーダル大言語モデルのためのグラフ構造化およびクエリ記述型意味的トケンプルーニング
- Authors: Zhongyu Yang, Dannong Xu, Wei Pang, Yingfang Yuan,
- Abstract要約: 本稿では,様々なMLLMに対して再学習や一般化を必要としないプラグアンドプレイプルーニング手法であるScriptを提案する。
Scriptは既存のプルーニング手法に比べてモデル効率と予測精度を一貫して向上させる。
LLaVA-NeXT-7Bでは6.8倍のプリフィルスピードアップと10倍のFLOP削減を実現し、オリジナルの性能の96.88%を維持した。
- 参考スコア(独自算出の注目度): 4.127467559348678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of visual tokens in multimodal large language models (MLLMs) leads to excessive memory consumption and inference latency, especially when handling high-resolution images and videos. Token pruning is a technique used to mitigate this issue by removing redundancy, but existing methods often ignore relevance to the user query or suffer from the limitations of attention mechanisms, reducing their adaptability and effectiveness. To address these challenges, we propose Script, a plug-and-play pruning method that requires no retraining and generalizes across diverse MLLMs. Script comprises two modules: a graph-structured pruning module that removes visually redundant tokens, and a query-conditioned semantic pruning module that preserves query-relevant visual information. Together, they enhance performance on multimodal tasks. Experiments on fourteen benchmarks across image and video understanding tasks show that Script consistently achieves higher model efficiency and predictive accuracy compared to existing pruning methods. On LLaVA-NeXT-7B, it achieves up to 6.8x prefill speedup and 10x FLOP reduction, while retaining 96.88% of the original performance.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)における視覚トークンの急速な増加は、特に高解像度の画像やビデオを扱う場合、過剰なメモリ消費と推論遅延をもたらす。
トケンプルーニング(Token pruning)は、冗長性を取り除くことでこの問題を軽減する手法であるが、既存の手法では、ユーザクエリの関連性を無視したり、注意機構の制限に悩まされ、適応性と効果が低下することが多い。
これらの課題に対処するために,さまざまなMLLMをまたいだ再学習や一般化を必要としないプラグイン・アンド・プレイ・プルーニング手法であるScriptを提案する。
Scriptには、視覚的に冗長なトークンを削除するグラフ構造化プルーニングモジュールと、クエリ関連視覚情報を保存するクエリ条件のセマンティックプルーニングモジュールの2つのモジュールがある。
同時に、マルチモーダルタスクのパフォーマンスを向上させる。
画像とビデオの理解タスクにわたる14のベンチマークの実験では、Scriptは既存のプルーニング手法と比較して、モデル効率と予測精度を一貫して向上している。
LLaVA-NeXT-7Bでは6.8倍のプリフィルスピードアップと10倍のFLOP削減を実現し、オリジナルの性能の96.88%を維持した。
関連論文リスト
- Parallel Vision Token Scheduling for Fast and Accurate Multimodal LMMs Inference [68.4758228017823]
ParVTSは、ビジュアルトークンを被写体および非オブジェクトグループに分割し、それらを並列に処理し、それらのセマンティクスを疑問トークンに転送し、非オブジェクトパスミッド推論を破棄する。
実験の結果、ParVTSは最大88.9%の視覚トークンを出力し、最小性能が低下し、1.77倍のスピードアップと70%のFLOPが削減された。
論文 参考訳(メタデータ) (2025-11-24T08:29:36Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Variation-aware Vision Token Dropping for Faster Large Vision-Language Models [24.952668143243542]
大規模視覚言語モデル(LVLM)はマルチモーダル理解タスクにおいて顕著な機能を示した。
トーケン圧縮は、処理されるトークンの数を減らすことにより、計算効率を向上させることにより、直接的な解を提供する。
我々は,LVLM推論中に最小限の変動を伴う視覚トークンを段階的に除去する,変分認識型視覚トークンドロップ(textiti.e., textbfV$2$Drop)を提案する。
論文 参考訳(メタデータ) (2025-09-01T15:28:44Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance [9.782362715017596]
視覚トークン列の長さを削減するために設計された,シンプルで効果的なプラグアンドプレイモジュールであるFOLDERを紹介する。
我々は、異なる還元戦略によってもたらされた情報損失を分析し、視覚的冗長性を取り除きながら鍵情報を保存するFOLDERを開発した。
FOLDERは、オリジナルのモデルと同等またはそれ以上のパフォーマンスを達成すると同時に、最大70%のビジュアルトークンを削除することで、複雑さを劇的に低減する。
論文 参考訳(メタデータ) (2025-01-05T03:28:45Z) - PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models [32.33892531885448]
MLLM(Multimodal large language model)は、視覚的タスクにまたがる強力なパフォーマンスを示す。
しかし、それらの効率は、マルチモーダル入力で長いコンテキストを処理することによる計算とメモリの要求によって妨げられている。
PAR(Prompt-Aware Token Reduction)は,モデルの性能を損なうことなく,視覚トークンを効率よく削減する新しい,プラグアンドプレイ方式である。
論文 参考訳(メタデータ) (2024-10-09T07:13:22Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。