論文の概要: Where Do Tokens Go? Understanding Pruning Behaviors in STEP at High Resolutions
- arxiv url: http://arxiv.org/abs/2509.14165v1
- Date: Wed, 17 Sep 2025 16:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.927289
- Title: Where Do Tokens Go? Understanding Pruning Behaviors in STEP at High Resolutions
- Title(参考訳): トークンはどこへ行くのか? -STEPの高分解能におけるプルーニング行動の理解-
- Authors: Michal Szczepanski, Martyna Poreba, Karim Haroun,
- Abstract要約: 視覚変換器(ViT)はセマンティックセグメンテーションにおいて最先端のパフォーマンスを達成するが、高い計算とメモリコストによって妨げられる。
本稿では,動的パッチマージとトークンプルーニングを組み合わせたハイブリッドトークン還元フレームワークSTEPを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) achieve state-of-the-art performance in semantic segmentation but are hindered by high computational and memory costs. To address this, we propose STEP (SuperToken and Early-Pruning), a hybrid token-reduction framework that combines dynamic patch merging and token pruning to enhance efficiency without significantly compromising accuracy. At the core of STEP is dCTS, a lightweight CNN-based policy network that enables flexible merging into superpatches. Encoder blocks integrate also early-exits to remove high-confident supertokens, lowering computational load. We evaluate our method on high-resolution semantic segmentation benchmarks, including images up to 1024 x 1024, and show that when dCTS is applied alone, the token count can be reduced by a factor of 2.5 compared to the standard 16 x 16 pixel patching scheme. This yields a 2.6x reduction in computational cost and a 3.4x increase in throughput when using ViT-Large as the backbone. Applying the full STEP framework further improves efficiency, reaching up to a 4x reduction in computational complexity and a 1.7x gain in inference speed, with a maximum accuracy drop of no more than 2.0%. With the proposed STEP configurations, up to 40% of tokens can be confidently predicted and halted before reaching the final encoder layer.
- Abstract(参考訳): 視覚変換器(ViT)はセマンティックセグメンテーションにおいて最先端のパフォーマンスを達成するが、高い計算とメモリコストによって妨げられる。
そこで本研究では,動的パッチマージとトークンプルーニングを組み合わせたハイブリッドトークン・ドローイングフレームワークSTEP(SuperToken and Early-Pruning)を提案する。
STEPのコアとなるのは、軽量CNNベースのポリシーネットワークであるdCTSである。
エンコーダブロックはアーリーエグジットを統合して、高信頼のスーパートークンを除去し、計算負荷を下げる。
本手法は1024×1024までの画像を含む高解像度セマンティックセマンティックセマンティクスベンチマークにおいて評価し,dCTSを単独で適用した場合,標準的な16×16ピクセルのパッチ方式に比べて2.5倍のトークン数を削減可能であることを示す。
これにより、ViT-Largeをバックボーンとして使用すると、計算コストが2.6倍、スループットが3.4倍向上する。
完全なSTEPフレームワークの適用により、より効率が向上し、計算複雑性が4倍、推論速度が1.7倍向上し、最大精度が2.0%以下となる。
提案されたSTEP構成では、トークンの最大40%は、最終エンコーダ層に到達する前に確実に予測および停止することができる。
関連論文リスト
- I-Segmenter: Integer-Only Vision Transformer for Efficient Semantic Segmentation [0.0]
量子化は効率を改善するための効果的な戦略を提供するが、ViTベースのセグメンテーションモデルは低い精度で脆弱である。
I-Segmenterは完全整数のみのViTセグメンテーションフレームワークである。
I-セグメンタは、シングルキャリブレーション画像のワンショットPTQにおいても、競合精度を達成する。
論文 参考訳(メタデータ) (2025-09-12T15:14:19Z) - Block-based Symmetric Pruning and Fusion for Efficient Vision Transformers [11.916258576313776]
Vision Transformer (ViT) は様々な視覚タスクで印象的な結果を得た。
近年の方法は、重要でないトークンをプルーニングすることで、ViTの$O(n2)$複雑さを減らすことを目的としている。
効率的なViTのための新しいbfブロックベースのシンメトリプルーニングとフュージョンを提案する。
論文 参考訳(メタデータ) (2025-07-16T10:48:56Z) - Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation [57.56385490252605]
拡散変換器(DiT)はビデオ生成に必須であるが,注意の2次複雑さにより遅延が著しく低下する。
SVG2は,識別精度を最大化し,無駄を最小化する学習自由フレームワークである。
論文 参考訳(メタデータ) (2025-05-24T21:30:29Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Token Cropr: Faster ViTs for Quite a Few Tasks [12.97062850155708]
本稿では,タスク関連性に基づいてトークンをエンドツーエンドに選択する方法を学習する補助予測ヘッドを用いたトークンプルーナを提案する。
画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションについて評価し,1.5~4倍の性能低下を示す。
論文 参考訳(メタデータ) (2024-12-01T20:58:29Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
このようなモデルのスケーリングには効率性が優先されるため、最先端のMask2Formerでは、変換器エンコーダのみに計算の50%を使用しています。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。
従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文 参考訳(メタデータ) (2023-06-12T11:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。