論文の概要: Video Patch Pruning: Efficient Video Instance Segmentation via Early Token Reduction
- arxiv url: http://arxiv.org/abs/2604.00827v1
- Date: Wed, 01 Apr 2026 12:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.987387
- Title: Video Patch Pruning: Efficient Video Instance Segmentation via Early Token Reduction
- Title(参考訳): ビデオ・パッチ・プルーニング:早期トークン・リダクションによる効率的なビデオ・インスタンス・セグメンテーション
- Authors: Patrick Glandorf, Thomas Norrenbrock, Bodo Rosenhahn,
- Abstract要約: 本稿では, 時間的事前知識を統合し, 初期のViT層内での効率的な疎結合を実現するための新しいビデオ・パッチ・プルーニング・フレームワーク(VPP)を提案する。
VPPは、高スパーシティレギュラーを抜いて、パッチ使用率が55%以下になったとしても、顕著なパフォーマンスを維持している。
具体的には、Youtube-VIS 2021データセットで最大パフォーマンスが0.6%低下した状態で、安定した結果を保存する。
- 参考スコア(独自算出の注目度): 24.23084511204264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have demonstrated state-ofthe-art performance in several benchmarks, yet their high computational costs hinders their practical deployment. Patch Pruning offers significant savings, but existing approaches restrict token reduction to deeper layers, leaving early-stage compression unexplored. This limits their potential for holistic efficiency. In this work, we present a novel Video Patch Pruning framework (VPP) that integrates temporal prior knowledge to enable efficient sparsity within early ViT layers. Our approach is motivated by the observation that prior features extracted from deeper layers exhibit strong foreground selectivity. Therefore we propose a fully differentiable module for temporal mapping to accurately select the most relevant patches in early network stages. Notably, the proposed method enables a patch reduction of up to 60% in dense prediction tasks, exceeding the capabilities of conventional image-based patch pruning, which typically operate around a 30% patch sparsity. VPP excels the high-sparsity regime, sustaining remarkable performance even when patch usage is reduced below 55%. Specifically, it preserves stable results with a maximal performance drop of 0.6% on the Youtube-VIS 2021 dataset.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、いくつかのベンチマークで最先端のパフォーマンスを実証しているが、その計算コストが高いため、実際のデプロイを妨げている。
Patch Pruningは大幅な節約を提供するが、既存のアプローチはトークンの削減をより深い層に制限し、アーリーステージの圧縮は未調査のままである。
これにより、全体的な効率性が制限される。
本稿では, 時間的事前知識を統合し, 初期のViT層内での効率的な疎結合を実現するための新しいビデオパッチ・プルーニング・フレームワーク(VPP)を提案する。
提案手法は, より深い層から抽出された先行特徴が, 強い前景選択性を示すことによる。
そこで本稿では,ネットワーク初期において最も関連性の高いパッチを正確に選択するための,時間的マッピングのための完全微分可能なモジュールを提案する。
特に,提案手法では,従来の画像ベースパッチプルーニングの能力を超える高密度予測タスクにおいて,最大60%のパッチ削減が可能であり,通常は30%のパッチ間隔で動作する。
VPPは、高スパーシリティのレギュレーションを抜いて、パッチ使用率が55%以下になったとしても、顕著なパフォーマンスを保っている。
具体的には、Youtube-VIS 2021データセットで最大パフォーマンスが0.6%低下した状態で、安定した結果を保存する。
関連論文リスト
- Training-free Latent Inter-Frame Pruning with Attention Recovery [50.889009147480856]
現在のビデオ生成モデルは高い計算遅延に悩まされており、リアルタイムアプリケーションは非常にコストがかかる。
本稿では,重複パッチの検出と再計算を行うLIPAR(Latent Inter-frame Pruning with Attention Recovery)フレームワークを提案する。
NVIDIA A6000で平均12.2FPSを達成した場合,ビデオ編集のスループットを$1.45 times$で向上させる。
論文 参考訳(メタデータ) (2026-03-06T01:49:47Z) - A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models [94.49953824684853]
人間の認知に触発された動的刈り取りフレームワークGlimpsePruneを導入する。
データ駆動の 'glimpse' を受け取り、応答生成の前に単一のフォワードパスで無関係な視覚トークンをプルーンする。
強化されたGlimpsePrune+は、同様に高いプルーニング率を維持しながら、ベースライン性能の110%を達成する。
論文 参考訳(メタデータ) (2025-08-03T02:15:43Z) - Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions [27.111140222002653]
本稿では,Stable Video Diffusion (SVD) フレームワークにおけるCLIP画像埋め込みの役割について検討する。
本稿では,SVDアーキテクチャの効率性に最適化されたトレーニング不要のアプローチであるVCUTを紹介する。
VCUTの実装により、ビデオ毎のMAC(Multiple-Accumulate Operations)を最大322T削減し、モデルパラメータを最大50M削減し、ベースラインと比較して20%のレイテンシ削減を実現した。
論文 参考訳(メタデータ) (2024-07-27T08:21:14Z) - PaPr: Training-Free One-Step Patch Pruning with Lightweight ConvNets for Faster Inference [11.112356346406365]
PaPrは、軽量なConvNetを使用して、最小限の精度で冗長なパッチを実質的に刈り取る方法である。
FLOPカウントの低減に類似した、最先端のパッチリダクション法よりもはるかに高い精度を実現している。
論文 参考訳(メタデータ) (2024-03-24T05:50:00Z) - EcoTTA: Memory-Efficient Continual Test-time Adaptation via
Self-distilled Regularization [71.70414291057332]
TTAは主にメモリ制限のあるエッジデバイス上で実行される。
長期的な適応は、しばしば破滅的な忘れとエラーの蓄積につながる。
本稿では,凍結したオリジナルネットワークを対象ドメインに適応させる軽量なメタネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:30Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。