論文の概要: VisPCO: Visual Token Pruning Configuration Optimization via Budget-Aware Pareto-Frontier Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.15188v1
- Date: Thu, 16 Apr 2026 16:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:32.001249
- Title: VisPCO: Visual Token Pruning Configuration Optimization via Budget-Aware Pareto-Frontier Learning for Vision-Language Models
- Title(参考訳): VisPCO: 視覚言語モデルのための予算対応パレートFrontier学習による視覚的トーケンプルーニング構成最適化
- Authors: Huawei Ji, Yuanhao Sun, Yuan Jin, Cheng Deng, Jiaxin Ding, Luoyi Fu, Xinbing Wang,
- Abstract要約: 視覚言語モデル(VLM)における高解像度画像とビデオフレームの処理による2次計算成長を効果的に緩和する視覚トークンプルーニング法
パレート構成最適化問題として視覚トークンプルーニングを定式化して最適構成を自動的に識別する新しいフレームワークを提案する。
提案手法では, Augmented Lagrangian 法を用いて, 勾配に基づく探索を可能にするために, 連続緩和とストレートスルー推定を用いる。
- 参考スコア(独自算出の注目度): 74.05545957865228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual token pruning methods effectively mitigate the quadratic computational growth caused by processing high-resolution images and video frames in vision-language models (VLMs). However, existing approaches rely on predefined pruning configurations without determining whether they achieve computation-performance optimality. In this work, we introduce , a novel framework that formulates visual token pruning as a Pareto configuration optimization problem to automatically identify optimal configurations. Our approach employs continuous relaxation and straight-through estimators to enable gradient-based search, solved via the Augmented Lagrangian method. Extensive experiments across 8 visual benchmarks demonstrate that effectively approximates the empirical Pareto frontier obtained through grid search and generalizes well across various pruning methods and VLM architectures. Furthermore, through learnable kernel functions, we investigate layer-wise pruning patterns and reveal that multi-step progressive pruning captures VLMs' hierarchical compression structure, achieving superior accuracy-efficiency trade-offs compared to single-layer approaches.
- Abstract(参考訳): 視覚トークンプルーニング法は、視覚言語モデル(VLM)における高解像度画像とビデオフレームの処理による二次的成長を効果的に緩和する。
しかし、既存のアプローチでは、計算性能の最適性を達成するかどうかを判断することなく、事前定義されたプルーニング構成に依存している。
本研究では,Pareto設定最適化問題として視覚トークンプルーニングを定式化して最適な設定を自動的に識別する新しいフレームワークである.
提案手法では, Augmented Lagrangian 法を用いて, 勾配に基づく探索を可能にするために, 連続緩和とストレートスルー推定を用いる。
8つの視覚的ベンチマークによる大規模な実験により、グリッド探索によって得られた経験的パレートフロンティアを効果的に近似し、様々なプルーニング手法やVLMアーキテクチャをうまく一般化することを示した。
さらに、学習可能なカーネル関数を用いて、階層的プルーニングパターンを解析し、マルチステッププログレッシブプルーニングがVLMの階層的圧縮構造を捕捉し、単層アプローチと比較して精度・効率の良いトレードオフを実現することを明らかにする。
関連論文リスト
- Evolution of Optimization Methods: Algorithms, Scenarios, and Evaluations [98.44542103979735]
勾配勾配降下法(SGD)とアダム(Adam)による1次勾配勾配降下法は、現代の訓練パイプラインの基礎となる。
大規模モデルトレーニング、厳格なプライバシ要件、分散学習パラダイムは、プライバシ保護とメモリ効率に関する従来のアプローチにおける重要な制限を明らかにする。
深層学習最適化アルゴリズムの進化軌道を振り返って分析し、様々なモデルアーキテクチャやトレーニングシナリオの主流を包括的に評価する。
我々は、重要な新興トレンドと基本設計のトレードオフを抽出し、将来の研究の有望な方向性を示唆する。
論文 参考訳(メタデータ) (2026-04-14T17:01:36Z) - Collaborative Multi-Mode Pruning for Vision-Language Models [31.988586741092927]
VLM(Vision-Language Models)は、統合トランスフォーマーアーキテクチャの中で急速に進歩しているが、リソース制約のあるデバイスへの展開は依然として困難である。
共同パラメータとトークンプルーニングによってVLMに適した新しいフレームワークであるCollaborative Multi-Mode Pruning (CoMP)を提案する。
提案手法は,最先端手法との比較により,高いプルーニング率下での性能を効果的に向上させる。
論文 参考訳(メタデータ) (2026-04-03T10:44:23Z) - StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - Input-Adaptive Visual Preprocessing for Efficient Fast Vision-Language Model Inference [2.8292841621378844]
本稿では,画像コンテンツ特性に基づいて,入力解像度と空間範囲を適応的に調整する視覚前処理手法を提案する。
提案手法は、コンテンツ認識画像解析、適応解像度選択、およびコンテンツ認識トリミングを組み合わせることで、視覚符号化前の視覚的冗長性を低減する。
実験結果から,適応的前処理は画像毎の推測時間を50%以上削減し,視覚トークン数の55%以上を連続的に減少させることがわかった。
論文 参考訳(メタデータ) (2025-12-23T23:30:56Z) - CogniEdit: Dense Gradient Flow Optimization for Fine-Grained Image Editing [88.9067184995168]
マルチモーダル推論と高密度報酬最適化を組み合わせた統合フレームワークCogniEditを提案する。
本手法は,視覚的品質と編集可能性の保存に追従する微粒な命令のバランスをとることによって,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-15T12:36:50Z) - Edge-Enhanced Vision Transformer Framework for Accurate AI-Generated Image Detection [0.0]
本稿では,視覚変換器(ViT)と新たなエッジベース画像処理モジュールを組み合わせたハイブリッド検出フレームワークを提案する。
提案手法は,自動コンテンツ検証とデジタル法医学における実世界の応用に非常に適している。
論文 参考訳(メタデータ) (2025-08-25T10:30:56Z) - Striving for Faster and Better: A One-Layer Architecture with Auto Re-parameterization for Low-Light Image Enhancement [50.93686436282772]
我々は、視覚的品質と計算効率の両方から、画像エンハンサーの限界を掘り下げることを目指している。
タスク要求を再考することにより、視覚的品質と計算効率がモデル学習と構造設計に対応する、明示的な接続を構築する。
最終的には、単一の畳み込み層のみを使用して、優れた視覚的品質を維持しながら、効率的な低照度画像強調を実現する。
論文 参考訳(メタデータ) (2025-02-27T08:20:03Z) - Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。
ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。
提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-09-12T05:55:32Z) - Pruning-as-Search: Efficient Neural Architecture Search via Channel
Pruning and Structural Reparameterization [50.50023451369742]
プルーニング・アズ・サーチ(Pruning-as-Search、PaS)は、必要なサブネットワークを自動的に効率的に検索するエンドツーエンドのプルーニング手法である。
提案したアーキテクチャは,ImageNet-1000分類タスクにおいて,1.0%$ Top-1精度で先行技術より優れていた。
論文 参考訳(メタデータ) (2022-06-02T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。