論文の概要: CLASP: Class-Adaptive Layer Fusion and Dual-Stage Pruning for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2604.12767v1
- Date: Tue, 14 Apr 2026 14:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.484024
- Title: CLASP: Class-Adaptive Layer Fusion and Dual-Stage Pruning for Multimodal Large Language Models
- Title(参考訳): CLASP:マルチモーダル大言語モデルのためのクラス適応層融合とデュアルステージプルーニング
- Authors: Yunkai Dang, Yizhu Jiang, Yifan Jiang, Qi Fan, Yinghuan Shi, Wenbin Li, Yang Gao,
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚トークンシーケンスの冗長性が高いため、計算オーバーヘッドがかなり大きい。
既存のアプローチでは、シングルレイヤのViT(Vision Transformer)機能と静的プルーニング戦略を使ってこの問題に対処するのが一般的である。
本稿では,クラス適応層融合とデュアルステージプルーニングに基づくプラグアンドプレイトークン削減フレームワークであるCLASPを提案する。
- 参考スコア(独自算出の注目度): 42.325284653818436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) suffer from substantial computational overhead due to the high redundancy in visual token sequences. Existing approaches typically address this issue using single-layer Vision Transformer (ViT) features and static pruning strategies. However, such fixed configurations are often brittle under diverse instructions. To overcome these limitations, we propose CLASP, a plug-and-play token reduction framework based on class-adaptive layer fusion and dual-stage pruning. Specifically, CLASP first constructs category-specific visual representations through multi-layer vision feature fusion. It then performs dual-stage pruning, allocating the token budget between attention-salient pivot tokens for relevance and redundancy-aware completion tokens for coverage. Through class-adaptive pruning, CLASP enables prompt-conditioned feature fusion and budget allocation, allowing aggressive yet robust visual token reduction. Extensive experiments demonstrate that CLASP consistently outperforms existing methods across a wide range of benchmarks, pruning ratios, and MLLM architectures. Code will be available at https://github.com/Yunkaidang/CLASP.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚トークンシーケンスの冗長性が高いため、計算オーバーヘッドがかなり大きい。
既存のアプローチでは、シングルレイヤのViT(Vision Transformer)機能と静的プルーニング戦略を使ってこの問題に対処するのが一般的である。
しかし、このような固定された構成は様々な指示の下では不安定であることが多い。
これらの制限を克服するために,クラス適応層融合とデュアルステージプルーニングに基づくプラグアンドプレイトークン削減フレームワークであるCLASPを提案する。
具体的には、CLASPはまず、多層視覚特徴融合によりカテゴリ固有の視覚表現を構築する。
次に、2段階のプルーニングを実行し、関連性のための注意対応のピボットトークンとカバレッジのための冗長対応の完了トークンの間にトークン予算を割り当てる。
クラス適応型プルーニングにより、CLASPはプロンプト条件のフィーチャーフュージョンと予算割り当てを可能にし、攻撃的で堅牢なビジュアルトークンの削減を可能にする。
CLASPは、幅広いベンチマーク、プルーニング比率、MLLMアーキテクチャで、既存のメソッドを一貫して上回っている。
コードはhttps://github.com/Yunkaidang/CLASP.orgから入手できる。
関連論文リスト
- Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning [47.868429337792314]
Fine-R1は、ファイングラインド視覚認識用に設計されたR1スタイルのMLLMである。
4ショットのトレーニングだけで、Fine-R1は既存のMLLMよりも優れており、MLLMの推論や、対照的なCLIPモデルも優れている。
論文 参考訳(メタデータ) (2026-02-07T16:16:51Z) - P2L-CA: An Effective Parameter Tuning Framework for Rehearsal-Free Multi-Label Class-Incremental Learning [54.44287764570792]
本稿では,Prompt-to-LabelモジュールとContinuous Adapterモジュールを統合するパラメータ効率フレームワークであるP2L-CAを紹介する。
P2L-CAは最先端の手法よりも大幅に改善されているだけでなく、CILシナリオの強力な一般化も示している。
論文 参考訳(メタデータ) (2026-01-19T04:35:04Z) - From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。
CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文 参考訳(メタデータ) (2026-01-15T18:59:10Z) - BOFA: Bridge-Layer Orthogonal Low-Rank Fusion for CLIP-Based Class-Incremental Learning [84.56022893225422]
CIL(Class-Incremental Learning)は,従来の知識を忘れずに,新たなカテゴリを継続的に学習することを目的としている。
CLIP から CIL への視覚言語モデルの適用には,次の2つの大きな課題がある。(1) 下流タスクへの適応には,新たな学習可能なモジュールを必要とする場合が多いこと,2) モデル複雑性の増大と忘れやすいこと,2) マルチモーダル表現は相補的な長所を提供する一方で,既存の手法では,視覚的およびテキスト的モダリティを効果的に統合する可能性を完全には実現できていない。
論文 参考訳(メタデータ) (2025-11-14T15:51:40Z) - Towards Robust Visual Continual Learning with Multi-Prototype Supervision [24.987400887222762]
MuproCLは、単一のターゲットを複数のコンテキスト対応プロトタイプに置き換える新しいフレームワークである。
LogSumExpアグリゲーションメカニズムにより、視覚モデルは与えられた画像の最も関連性の高いプロトタイプと適応的に整合することができる。
論文 参考訳(メタデータ) (2025-09-19T14:24:48Z) - Multi Activity Sequence Alignment via Implicit Clustering [50.3168866743067]
暗黙のクラスタリングによるシーケンスアライメントによる制約を克服する新しいフレームワークを提案する。
具体的には、列内のフレームをアライメントしながら、暗黙的なクリップレベルのクラスタリングを行うという考え方です。
実験の結果,提案手法は最先端の結果よりも優れていた。
論文 参考訳(メタデータ) (2025-03-16T14:28:46Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。