論文の概要: Temporal Action Detection Model Compression by Progressive Block Drop
- arxiv url: http://arxiv.org/abs/2503.16916v1
- Date: Fri, 21 Mar 2025 07:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:52.221594
- Title: Temporal Action Detection Model Compression by Progressive Block Drop
- Title(参考訳): プログレッシブ・ブロック・ドロップによる時間的行動検出モデル圧縮
- Authors: Xiaoyong Chen, Yong Guo, Jiaming Liang, Sitong Zhuang, Runhao Zeng, Xiping Hu,
- Abstract要約: 時間的アクション検出(TAD)は、未トリミングビデオ中のアクションインスタンスを識別し、ローカライズすることを目的としている。
より大きな特徴抽出器とデータセットによって駆動されるモデル性能の最近の改善は、計算要求の増大につながった。
層幅を維持しながらモデル深さを低減するプログレッシブ・ブロック・ドロップ法を提案する。
提案手法は2つのTADベンチマークで計算オーバーヘッドを25%削減する。
- 参考スコア(独自算出の注目度): 19.122679098124816
- License:
- Abstract: Temporal action detection (TAD) aims to identify and localize action instances in untrimmed videos, which is essential for various video understanding tasks. However, recent improvements in model performance, driven by larger feature extractors and datasets, have led to increased computational demands. This presents a challenge for applications like autonomous driving and robotics, which rely on limited computational resources. While existing channel pruning methods can compress these models, reducing the number of channels often hinders the parallelization efficiency of GPU, due to the inefficient multiplication between small matrices. Instead of pruning channels, we propose a Progressive Block Drop method that reduces model depth while retaining layer width. In this way, we still use large matrices for computation but reduce the number of multiplications. Our approach iteratively removes redundant blocks in two steps: first, we drop blocks with minimal impact on model performance; and second, we employ a parameter-efficient cross-depth alignment technique, fine-tuning the pruned model to restore model accuracy. Our method achieves a 25% reduction in computational overhead on two TAD benchmarks (THUMOS14 and ActivityNet-1.3) to achieve lossless compression. More critically, we empirically show that our method is orthogonal to channel pruning methods and can be combined with it to yield further efficiency gains.
- Abstract(参考訳): 時間的行動検出(TAD)は、様々なビデオ理解タスクに欠かせないビデオ中のアクションインスタンスを識別し、ローカライズすることを目的としている。
しかし、より大きな特徴抽出器とデータセットによって駆動されるモデル性能の最近の改善は、計算要求の増大につながった。
これは、限られた計算資源に依存する自律運転やロボット工学のようなアプリケーションにとっての課題である。
既存のチャネルプルーニング法はこれらのモデルを圧縮できるが、小さな行列間の非効率な乗算のため、チャネル数の削減はGPUの並列化効率を阻害することが多い。
チャネルを刈り取る代わりに,層幅を維持しながらモデル深さを低減するプログレッシブ・ブロック・ドロップ法を提案する。
このように、計算には大きな行列を用いるが、乗算の数を減らすことができる。
まず,モデル性能への影響を最小限に抑えたブロックをドロップし,次にパラメータ効率のよいクロスディープスアライメント手法を用いてモデル精度を復元する。
提案手法は2つのTADベンチマーク(THUMOS14とActivityNet-1.3)の計算オーバーヘッドを25%削減し、ロスレス圧縮を実現する。
さらに重要なことは、我々の手法がチャネルプルーニング法と直交していることを示し、それと組み合わせることでさらなる効率向上が期待できるということである。
関連論文リスト
- V"Mean"ba: Visual State Space Models only need 1 hidden dimension [0.7864304771129751]
状態空間モデル (SSM) は線形再帰機構を導入して解法として登場した。
平均演算を用いてSSMのチャネル次元を除去する,トレーニング不要な圧縮手法である textitVMeanba を導入する。
textitVMeanbaは1.12倍のスピードアップを達成でき、精度は3%以下である。
論文 参考訳(メタデータ) (2024-12-21T12:27:07Z) - LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers [79.07412045476872]
拡散変換器は、様々な生成タスクの優越的なモデルとして登場してきた。
各拡散段階におけるモデル全体の実行は不要であることを示し、いくつかの計算は以前のステップの結果を遅延的に再利用することでスキップできることを示した。
遅延学習フレームワークを提案する。このフレームワークは,初期ステップからキャッシュされた結果を効率よく活用し,冗長な計算を省略する。
論文 参考訳(メタデータ) (2024-12-17T01:12:35Z) - Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。
具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。
提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T01:09:23Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Router-Tuning: A Simple and Effective Approach for Enabling Dynamic-Depth in Transformers [40.40923861822689]
深度(MoD)の混合は、重要でない層をスキップすることで計算深度を動的に調整する。
MoDアプローチの主な課題は2つある: 1) 重要なレイヤをバイパスする際のパフォーマンス劣化のリスクを回避できるルータとともに、モデル全体をトレーニングする必要があるため、トレーニングコストが高くなる。
本稿では,小さなデータセット上でのみルータを微調整し,フルモデルトレーニングに伴う計算オーバーヘッドを大幅に削減するルータチューニングを提案する。
第2の課題として、動的深さで注意を配置するMindSkipを提案する。
論文 参考訳(メタデータ) (2024-10-17T03:23:50Z) - Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文 参考訳(メタデータ) (2022-11-22T15:14:20Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - ABCP: Automatic Block-wise and Channel-wise Network Pruning via Joint
Search [10.544159086698112]
本稿では,ブロックワイド・チャネルワイド・ネットワーク・プルーニング(ABCP)を提案し,ブロックワイド・チャネルワイド・プルーニング動作と深い強化学習を併用する。
従来のルールベースプルーニング法と比較して、このパイプラインは人間の労力を節約し、より低い精度の損失で高い圧縮比を達成する。
モバイルロボット検出データセットでテストされたYOLOv3モデルは、99.5%のFLOPを節約し、99.5%のパラメータを削減し、わずか2.8%のmAP損失で37.3倍の速度向上を達成した。
論文 参考訳(メタデータ) (2021-10-08T02:15:49Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。