論文の概要: Filter, Correlate, Compress: Training-Free Token Reduction for MLLM Acceleration
- arxiv url: http://arxiv.org/abs/2411.17686v3
- Date: Fri, 14 Mar 2025 17:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:04:02.243351
- Title: Filter, Correlate, Compress: Training-Free Token Reduction for MLLM Acceleration
- Title(参考訳): MLLM加速のためのトレーニングフリートークン削減のためのフィルタ, 相関, 圧縮
- Authors: Yuhang Han, Xuyang Liu, Zihan Zhang, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang,
- Abstract要約: トークンの削減を3つの段階に分解するフレームワークを提案する。冗長トークンのフィルタリング,破棄された情報を保存トークンに関連付けること,冗長性を最小化するためにトークンを圧縮することである。
FiCoCo は LLaVA-1.5-7B/LLaVA-NeXT-7B で最大 5.7x/14.7x FLOPs の 92.8%/93.6% の性能保持を実現している。
- 参考スコア(独自算出の注目度): 42.60904284683844
- License:
- Abstract: The quadratic complexity of Multimodal Large Language Models (MLLMs) with respect to sequence length poses significant computational and memory challenges, hindering their real-world deployment. While existing training-free token reduction methods aim to address these inefficiencies, how to precisely identify redundant visual tokens and recover the essential information from the discarded tokens remain unclear. In this paper, we propose a ''filter-correlate-compress'' framework that decomposes the token reduction into three stages: filtering redundant tokens, correlating discarded information to preserved tokens, and compressing tokens to minimize redundancy. Following the framework, we propose a solution FiCoCo to identify limitations in single redundancy assessment, propose adaptive strategies to retain critical information from discarded tokens, and mitigate semantic dilution during token fusion. Two specialized variants, FiCoCo-V (for vision encoders) and FiCoCo-L (for LLM decoders), further optimize efficiency across MLLM architectures. Extensive experiments demonstrate that FiCoCo achieves up to 5.7x/14.7x FLOPs reduction with 92.8%/93.6% performance retention on LLaVA-1.5-7B/LLaVA-NeXT-7B. Our methods consistently outperform state-of-the-art training-free approaches, showcasing effectiveness and generalizability across model architectures, sizes, and tasks without requiring retraining. Our project page is at https://ficoco-accelerate.github.io/.
- Abstract(参考訳): 列長に関するMLLM(Multimodal Large Language Models)の二次的複雑性は、計算とメモリの重大な問題を引き起こし、実際の展開を妨げる。
既存のトレーニングフリートークン削減手法は、これらの非効率性に対処することを目的としているが、冗長な視覚トークンを正確に識別し、捨てられたトークンから必須情報を回収する方法はまだ不明である。
本稿では, 冗長トークンのフィルタリング, 廃棄された情報を保存トークンに関連付ける, 冗長性を最小限に抑えるために, トークンを圧縮する3つの段階に, トークンの削減を分解する'フィルタ相関圧縮'フレームワークを提案する。
本フレームワークでは,単一冗長性評価における制約を特定するためのFiCoCoを提案するとともに,捨てられたトークンから重要な情報を保持するための適応戦略を提案し,トークン融合時の意味的希釈を緩和する。
FiCoCo-V(ビジョンエンコーダ用)とFiCoCo-L(LCMデコーダ用)の2つの特殊派生型は、MLLMアーキテクチャ全体にわたって効率を最適化している。
大規模な実験により、FiCoCoは最大5.7x/14.7xのFLOPを92.8%/93.6%でLLaVA-1.5-7B/LLaVA-NeXT-7Bの性能維持を達成した。
提案手法は, モデルアーキテクチャ, サイズ, タスクに対して, 再トレーニングを必要とせず, 有効性と一般化性を示す。
私たちのプロジェクトページはhttps://ficoco-accelerate.github.io/です。
関連論文リスト
- FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。
重要でないトークンを適応的に識別する学習可能なルータを提案する。
提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T07:09:46Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - BECLR: Batch Enhanced Contrastive Few-Shot Learning [1.450405446885067]
教師なしの少数ショット学習は、トレーニング時にアノテーションへの依存を捨てることで、このギャップを埋めようとしている。
本稿では,高度に分離可能な潜在表現空間を促進するために,新しい動的クラスタ mEmory (DyCE) モジュールを提案する。
そして、数ショットの推論段階でサンプルバイアスの問題に取り組みます。
論文 参考訳(メタデータ) (2024-02-04T10:52:43Z) - Streaming LifeLong Learning With Any-Time Inference [36.3326483579511]
本稿では,1回の入力サンプルが各タイムステップ,シングルパス,クラスインクリメンタル,任意のタイミングで評価対象に到達する,新たな生涯学習手法を提案する。
また,スナップショット自己蒸留方式の暗黙正則化器を提案する。
我々の経験的評価と改善は,提案手法が先行研究を大きなマージンで上回ることを示すものである。
論文 参考訳(メタデータ) (2023-01-27T18:09:19Z) - Isolation and Impartial Aggregation: A Paradigm of Incremental Learning
without Interference [61.11137714507445]
本稿では,インクリメンタルラーニングの段階におけるパフォーマンスの不均衡について論じる。
ステージアイソレーションに基づくインクリメンタルラーニングフレームワークを提案する。
提案手法を4つの大規模ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-11-29T06:57:48Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。