論文の概要: Beyond Token Pruning: Operation Pruning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.02909v1
- Date: Tue, 24 Jun 2025 19:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-13 12:05:57.506741
- Title: Beyond Token Pruning: Operation Pruning in Vision-Language Models
- Title(参考訳): トーケンプルーニングを超えて:ビジョンランゲージモデルにおける運用プルーニング
- Authors: Aoming Liu, Reuben Tan, Boqing Gong, Bryan A. Plummer,
- Abstract要約: プリエントビジョン言語モデル(VLM)トークンプルーニングは、プルーニングされたトークンに対する注意とフィードフォワード操作を排除し、計算を減らす。
本稿では,トークンではなく直接操作を行うデータ駆動型手法であるGreedily Sorted Operation Pruning (GSOP)を提案する。
- 参考スコア(独自算出の注目度): 41.292697046913496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior Vision Language Model (VLM) token pruning reduces computation by eliminating attention and feed-forward operations for pruned tokens while maintaining all operations for critical tokens. However, this binary approach conflates token/operation redundancy - critical operations may be removed along with discarded tokens, while preserved tokens retain all potentially redundant operations. To surgically eliminate redundant operations while preserving critical ones, we propose Greedily Sorted Operation Pruning (GSOP), a data-driven method that directly prunes operations rather than tokens. GSOP first decomposes a VLM decoder's computations into atomic operations along three dimensions: token groups, layer positions, and computation modules. GSOP determines the pruning order of operations through greedy sorting: GSOP iteratively selects the redundant operation that incurs minimal performance drop considering previously pruned operations. Different computational budgets can be accommodated without re-searching by simply pruning operations according to this order until the desired budget is met. GSOP enhances sorting efficiency through: a) leveraging historical operation rankings to avoid redundant evaluations; b) excluding the ``free-to-prune" and ``danger-to-prune" operations from sorting. GSOP achieves compelling efficiency-performance tradeoffs, reducing computation by 70% with only 4% performance loss while maintaining up to 18% higher performance than state-of-the-art methods when transferred across diverse VLMs and tasks. Real GPU efficiency evaluations confirm its practical value. The code is in https://github.com/zxcvfd13502/GSOP.
- Abstract(参考訳): Prior Vision Language Model (VLM)トークンプルーニングは、重要なトークンに対する全ての操作を維持しながら、プルーニングされたトークンに対する注意とフィードフォワード操作を排除し、計算を減らす。
しかし、このバイナリアプローチはトークン/操作の冗長性を混乱させ、重要な操作は捨てられたトークンとともに取り除かれ、保存されたトークンはすべての潜在的な冗長な操作を保持する。
クリティカルな操作を保存しながら冗長な操作を外科的に除去するために,トークンではなく直接操作を行うデータ駆動方式であるGreedily Sorted Operation Pruning (GSOP)を提案する。
GSOPはまず、VLMデコーダの計算をトークングループ、層位置、計算モジュールの3次元に沿って原子演算に分解する。
GSOPは、以前刈り取られた操作を考慮して、最小のパフォーマンス低下を引き起こす冗長な操作を反復的に選択する。
異なる計算予算は、望まれる予算が満たされるまで、単にこの順序に従って操作を刈り取るだけで再調査することなく対応できる。
GSOPはソート効率を高める。
a) 冗長な評価を避けるため,歴史的業務の格付けを活用すること
b) ``free-to-prune' 及び ``danger-to-prune' の操作をソートから除外すること。
GSOPは高い効率と性能のトレードオフを実現し、様々なVLMやタスクにまたがって転送される場合の最先端の手法よりも最大18%高いパフォーマンスを維持しながら、わずか4%のパフォーマンス損失で計算を70%削減する。
実際のGPU効率評価はその実用的価値を確認します。
コードはhttps://github.com/zxcvfd13502/GSOPにある。
関連論文リスト
- Pruning by Block Benefit: Exploring the Properties of Vision Transformer Blocks during Domain Adaptation [18.23994867489678]
Pruning by Block Benefit (P3B) は、ブロックレベルの相対的寄与を利用してパラメータリソースをグローバルに割り当てるプルーニング手法である。
P3Bは高い性能を保ちながら、70%のパラメータ還元率を持つ高疎度な状態でも0.64%の精度しか失わない。
論文 参考訳(メタデータ) (2025-06-30T09:58:25Z) - Lossless Token Sequence Compression via Meta-Tokens [34.795097157742624]
LZ77と同様のタスク非依存のロスレス圧縮手法を導入し,入力トークン列の長さを平均27%,18%削減する。
提案手法はセマンティクス/構文の厳密な保存を必要とする2つのタスクに対して評価し、既存の損失圧縮手法がこの設定において不十分であることを示す。
論文 参考訳(メタデータ) (2025-05-30T23:32:57Z) - Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation [80.69067017594709]
大規模言語モデル(LLM)とそのエージェントモデルは、以前のタスクからの推論を維持するのに苦労する。
本稿では,従来の計算を直接再利用し,テスト時に過去のログから推論する新しいフレームワークであるLAGを提案する。
本手法は,ログを使用しない標準的なエージェントシステムよりも優れている。
論文 参考訳(メタデータ) (2025-05-20T14:14:38Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - A partition cover approach to tokenization [27.78022124795594]
トークン化とは、文字列を一定の語彙サイズのトークンに符号化するプロセスである。
Byte-Pair corpora (BPE) は、トークン化問題を圧縮問題として定式化し、マージのシーケンスを実行することでそれに取り組む。
GreedTokは圧縮においてBPEやUnigramよりも優れており、GreedWMCに匹敵するカバースコアが得られることを示す。
論文 参考訳(メタデータ) (2025-01-08T17:07:07Z) - Efficient Ranking, Order Statistics, and Sorting under CKKS [5.543544712471747]
ホモモルフィック暗号化(FHE)は、暗号化されたデータの操作を可能にするため、プライバシ保護アプリケーションに極めて有用である。
計算オーバーヘッドの増大とFHEのネイティブ操作の制限により、これらのタスクの効率的な実装には大きな課題が生じる。
比較深度を最大2(コンスタント)まで向上させるランキング、順序統計、ソートのためのソリューションを提案する。
論文 参考訳(メタデータ) (2024-12-19T18:06:25Z) - Seq-VCR: Preventing Collapse in Intermediate Transformer Representations for Enhanced Reasoning [29.39584492735953]
我々は,モデル中間層における表現の崩壊を,その推論能力を制限する重要な要因として認識する。
本稿では、中間表現のエントロピーを高め、崩壊を防止するシークエンシャル変数共分散正規化(Seq-VCR)を提案する。
論文 参考訳(メタデータ) (2024-11-04T18:14:07Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - TORE: Token Recycling in Vision Transformers for Efficient Active Visual Exploration [2.177039289023855]
アクティブ・ビジュアル・エクスプロレーション(AVE)は、実世界のシナリオにおけるロボット資源の利用を最適化し、最も情報性の高い観測を順次選択する。
我々はToken Recycling (TORE)と呼ばれる新しいアプローチをAVEに導入する。
エンコーダを抽出器と集約器に分割し、抽出器はそれぞれの観察を別々に処理し、集約器に渡されるトークンの再利用を可能にする。
論文 参考訳(メタデータ) (2023-11-26T15:39:57Z) - Dynamic Token Pruning in Plain Vision Transformers for Semantic
Segmentation [18.168932826183024]
本研究では,意味的セグメンテーションのためのトークンの早期終了に基づく動的トークン処理(DToP)手法を提案する。
実験により、提案したDToPアーキテクチャは、現在のセマンティックセグメンテーション手法の計算コストを平均20%から35%削減することを示唆している。
論文 参考訳(メタデータ) (2023-08-02T09:40:02Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - An Efficient Algorithm for Cooperative Semi-Bandits [0.0]
本稿では,有名なFollow The Perturbed Leaderアルゴリズムの協調バージョンであるCoop-FTPLを紹介する。
T 時間ステップ後のアルゴリズムの期待された後悔は QT log(k)(k$alpha$ 1 /Q + m) であり、Q は総アクティベーション確率質量である。
論文 参考訳(メタデータ) (2020-10-05T07:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。