論文の概要: Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering
- arxiv url: http://arxiv.org/abs/2505.10118v1
- Date: Thu, 15 May 2025 09:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.262178
- Title: Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering
- Title(参考訳): ビジュアルトーケンプルーニングにおける1 + 1 < 1の理由:多目的バランスカバーによるナイーブ統合を超えて
- Authors: Yangfu Li, Hongjian Zhan, Tianyi Chen, Qi Liu, Yue Lu,
- Abstract要約: 既存の視覚トークンプルーニング手法は、静的戦略によるプロンプトアライメントと視覚的保存を目標としている。
両目的被覆問題として視覚トークンプルーニングを再構成する多目的平衡被覆法(MoB)を提案する。
MoBは、入力されたビジュアルトークンの数に関して、証明可能なパフォーマンスバウンダリと線形スケーラビリティを提供する。
- 参考スコア(独自算出の注目度): 32.58783147499582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing visual token pruning methods target prompt alignment and visual preservation with static strategies, overlooking the varying relative importance of these objectives across tasks, which leads to inconsistent performance. To address this, we derive the first closed-form error bound for visual token pruning based on the Hausdorff distance, uniformly characterizing the contributions of both objectives. Moreover, leveraging $\epsilon$-covering theory, we reveal an intrinsic trade-off between these objectives and quantify their optimal attainment levels under a fixed budget. To practically handle this trade-off, we propose Multi-Objective Balanced Covering (MoB), which reformulates visual token pruning as a bi-objective covering problem. In this framework, the attainment trade-off reduces to budget allocation via greedy radius trading. MoB offers a provable performance bound and linear scalability with respect to the number of input visual tokens, enabling adaptation to challenging pruning scenarios. Extensive experiments show that MoB preserves 96.4% of performance for LLaVA-1.5-7B using only 11.1% of the original visual tokens and accelerates LLaVA-Next-7B by 1.3-1.5$\times$ with negligible performance loss. Additionally, evaluations on Qwen2-VL and Video-LLaVA confirm that MoB integrates seamlessly into advanced MLLMs and diverse vision-language tasks.
- Abstract(参考訳): 既存の視覚トークンプルーニング手法は、静的戦略による迅速なアライメントと視覚的保存を目標としており、これらの目的がタスク間で異なる相対的重要性を見越して、一貫性のないパフォーマンスをもたらす。
これを解決するために、ハウゼンドルフ距離に基づく視覚的トークンプルーニングのための最初の閉形式誤差を導出し、両方の目的の寄与を均一に特徴づける。
さらに、$\epsilon$-covering理論を利用して、これらの目的の間に固有のトレードオフを明らかにし、固定予算の下で最適な達成レベルを定量化する。
このトレードオフを現実的に扱うために,両目的被覆問題として視覚トークンプルーニングを再構成する多目的平衡被覆法(MoB)を提案する。
この枠組みでは、達成トレードオフは、グリーディ半径取引による予算配分に還元される。
MoBは、入力されたビジュアルトークンの数に関して、証明可能なパフォーマンスバウンダリと線形スケーラビリティを提供し、挑戦的なプルーニングシナリオへの適応を可能にする。
大規模な実験によると、MoBはオリジナルの視覚トークンの11.1%しか使用せず、LLaVA-1.5-7Bの96.4%の性能を維持し、LLaVA-Next-7Bを1.3-1.5$\times$で加速する。
さらに、Qwen2-VLとVideo-LLaVAの評価により、MoBが高度なMLLMと多様な視覚言語タスクにシームレスに統合できることが確認された。
関連論文リスト
- Similarity-Aware Token Pruning: Your VLM but Faster [1.9183218182020931]
本稿では、視覚変換器(ViT)と視覚言語モデル(VLM)のためのトレーニングフリートークン解析フレームワークであるSAINTを紹介する。
系統的な解析により,変圧器における3段階の普遍的なトークン進化過程を同定し,臨界情報を犠牲にすることなく早期にアグレッシブプルーニングを可能にする。
ViTでは、SAINTは224pxでViT-H/14のスループットを2倍にし、ImageNet-1Kの精度はわずか0.6%で、最も近い競合相手を0.8%上回っている。
論文 参考訳(メタデータ) (2025-03-14T16:12:23Z) - Non-Myopic Multi-Objective Bayesian Optimization [64.31753000439514]
多目的最適化問題を解くために、有限水平逐次実験設計の問題を考察する。
この問題は、材料設計を含む多くの現実世界の応用で発生する。
我々はMOO問題に対する最初の非ミオピック手法を提案する。
論文 参考訳(メタデータ) (2024-12-11T04:05:29Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Exploring Token Pruning in Vision State Space Models [38.122017567843905]
状態空間モデル(SSM)は、変圧器の注意モジュールと比較して線形計算の複雑さを維持する利点がある。
我々はトークンベースのプルーニングにより、SSMベースの視覚モデルの効率を向上する新たなステップを採っている。
刈り取られたPlainMamba-L3のFLOPを41.6%削減して、ImageNetの81.7%の精度を実現した。
論文 参考訳(メタデータ) (2024-09-27T17:59:50Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Group Whitening: Balancing Learning Efficiency and Representational
Capacity [98.52552448012598]
グループホワイトニング(GW)は、ホワイトニング操作の利点を活用し、ミニバッチ内での正規化の欠点を回避する。
我々は、GWが異なるアーキテクチャのパフォーマンスを継続的に改善し、絶対的なゲインが$1.02%$$sim$1.49%$のImageNet上のトップ1精度と$1.82%$$$sim$$21%$のバウンディングボックスAPのCOCO上のバウンディングボックスAPであることを示した。
論文 参考訳(メタデータ) (2020-09-28T14:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。