Fugu-MT 論文翻訳(概要): Decoupled Similarity for Task-Aware Token Pruning in Large Vision-Language Models

論文の概要: Decoupled Similarity for Task-Aware Token Pruning in Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2604.11240v1
Date: Mon, 13 Apr 2026 09:44:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.459028
Title: Decoupled Similarity for Task-Aware Token Pruning in Large Vision-Language Models
Title（参考訳）: 大規模視覚言語モデルにおけるタスク認識型トーケンプルーニングの非結合類似性
Authors: Kexin Ma, Jing Xiao, Chaofeng Chen, Geyong Min, Guibo Zhu, Jinqiao Wang, Liang Liao,
Abstract要約: トケンプルーニングは、大規模ビジョンランゲージモデルの計算オーバーヘッドを大幅に削減する効果的な手法として登場した。視覚エンコーダ内でのタスク認識トークンのプルーニングを正確に行うためのデカップリング型類似性認識型プルーニング手法であるDeSAPを提案する。 DeSAPはSOTA法を精度と効率の両方で一貫して上回っている。
参考スコア（独自算出の注目度）: 73.07332521794093
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Token pruning has emerged as an effective approach to reduce the substantial computational overhead of Large Vision-Language Models (LVLMs) by discarding less informative visual tokens while preserving performance. However, existing methods typically rely on individual attention sources from different LVLM components, resulting in incomplete and suboptimal pruning decisions due to biased attention distributions. To address this problem, we propose DeSAP, a novel Decoupled Similarity-Aware Pruning method for precise, task-aware token pruning within the visual encoder. Specifically, DeSAP introduces a decoupled similarity to capture fine-grained cross-modal relevance between visual features and text tokens, providing explicit task-related guidance for pruning. By integrating decoupled similarity with visual saliency signals derived from visual attention, DeSAP performs token pruning under the guidance of both task-related and visual cues, enabling robust pruning even under aggressive pruning ratios. Extensive experiments across diverse benchmarks and architectures show that DeSAP consistently outperforms SOTA methods in both accuracy and efficiency. On LLaVA-1.5-7B, DeSAP achieves a 10 times FLOPs reduction and a 2.3 times prefill speedup by retaining only 11.1% of visual tokens, while maintaining 98.1% of the original performance.
Abstract（参考訳）: トーケンプルーニング(Token pruning)は、LVLM(Large Vision-Language Models)の計算オーバーヘッドを低減し、性能を保ちながら、少ない情報的視覚トークンを破棄する効果的な手法として登場した。しかし、既存の手法は一般に異なるLVLM成分からの個別の注意源に依存しており、偏りのある注意分布による不完全かつ準最適プルーニング決定をもたらす。この問題に対処するため,視覚エンコーダ内でのタスク対応トークンプルーニングのためのDeSAPを提案する。具体的には、DeSAPは、視覚的特徴とテキストトークンの間の細かな相互関連を捉えるために、分離された類似性を導入し、プルーニングのための明示的なタスク関連ガイダンスを提供する。 DeSAPは、視覚的注意から導かれる視覚的サリエンシ信号と疎結合の類似性を統合することにより、タスク関連および視覚的手がかりの両方のガイダンスの下でトークンプルーニングを行い、攻撃的なプルーニング比の下でも堅牢なプルーニングを可能にする。様々なベンチマークやアーキテクチャにわたる大規模な実験により、DeSAPはSOTAメソッドを精度と効率の両方で一貫して上回っていることが示されている。 LLaVA-1.5-7Bでは、DeSAPは10倍のFLOP削減と2.3倍のプリフィル・スピードアップを達成する。

関連論文リスト

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs [61.08183446817756]
トケンプルーニングは視覚言語モデルの計算効率を高めるために不可欠である。本稿では,視覚トークンを ViT と LLM の両方にわたってプルークする,シンプルで軽量なモジュールである Spatio-Temporal Token Scoring (STTS) を紹介する。 STTSはアーキテクチャ全体の視覚トークンの50%を突破し、トレーニングと推論の両方で効率が62%向上した。
論文参考訳（メタデータ） (2026-03-18T17:59:56Z)
Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity [54.95089105944234]
視覚言語モデル(VLM)は、過剰な視覚トークンの生成によって引き起こされる計算の非効率性に直面する。 2段階パイプラインを特徴とする訓練不要なSynergistic Importance-DiversityアプローチPruneSIDを提案する。 LLaVA-NeXTでは11.1%のトークン保持率で96.3%の精度、極端な圧縮速度(5.6%)で92.8%の精度を実現した。
論文参考訳（メタデータ） (2026-03-10T10:31:58Z)
IDPruner: Harmonizing Importance and Diversity in Visual Token Pruning for MLLMs [11.254129271889035]
視覚トークンのプルーニングはMLLM推論を加速させる重要な手法として登場した。 IDPrunerは最先端のパフォーマンスを実現し、様々なアーキテクチャやタスクにまたがる優れた一般化を実現している。
論文参考訳（メタデータ） (2026-02-10T11:20:24Z)
ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文参考訳（メタデータ） (2025-10-20T06:18:47Z)
VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization [70.98122339799218]
LMM(Large Multimodal Models)は、多数の視覚トークンを微粒な視覚情報に活用することにより、視覚言語タスクに優れる。推論中の視覚トークンを減らすことを目的とした以前の研究は、一般的に、視覚のみのトークンや視覚言語トークンの注意スコアから得られた重要マップを利用して、1つまたは複数のプルーニング段階にわたってトークンをプルーンする。重要地図導出プロセスとリサイクル機構を備えたプログレッシブプルーニングモジュールを導入したトークンプルーニングフレームワークであるVFlowOptを提案する。実験により、VFlowOptは、同等のパフォーマンスを維持しながら、90%のビジュアルトークンをプルークでき、KVキャッシュメモリが89%削減され、3.8になった。
論文参考訳（メタデータ） (2025-08-07T09:47:21Z)
Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文参考訳（メタデータ） (2025-03-11T03:58:17Z)
Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。主な計算負担は、処理されたテキストと視覚トークンから生じる。視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-02T10:49:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。