論文の概要: HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers
- arxiv url: http://arxiv.org/abs/2603.12222v1
- Date: Thu, 12 Mar 2026 17:45:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.263739
- Title: HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers
- Title(参考訳): HiAP: 視覚変換器のためのマルチグラニュラー確率的自動実行フレームワーク
- Authors: Andy Li, Aiden Durrant, Milan Markovic, Georgios Leontidis,
- Abstract要約: ビジョントランスフォーマーは計算資源とメモリ帯域幅を著しく制限し、エッジデバイスへの展開を著しく制限する。
単一エンドツーエンドのトレーニングフェーズにおいて最適なサブネットワークを探索する継続的緩和フレームワークである階層型オートプルーニング(HiAP)を提案する。
HiAPは大きな行列をロードするメモリバウンドオーバーヘッドと計算バウンドな数学的操作の両方に対処する。
- 参考スコア(独自算出の注目度): 3.644142828550762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers require significant computational resources and memory bandwidth, severely limiting their deployment on edge devices. While recent structured pruning methods successfully reduce theoretical FLOPs, they typically operate at a single structural granularity and rely on complex, multi-stage pipelines with post-hoc thresholding to satisfy sparsity budgets. In this paper, we propose Hierarchical Auto-Pruning (HiAP), a continuous relaxation framework that discovers optimal sub-networks in a single end-to-end training phase without requiring manual importance heuristics or predefined per-layer sparsity targets. HiAP introduces stochastic Gumbel-Sigmoid gates at multiple granularities: macro-gates to prune entire attention heads and FFN blocks, and micro-gates to selectively prune intra-head dimensions and FFN neurons. By optimizing both levels simultaneously, HiAP addresses both the memory-bound overhead of loading large matrices and the compute-bound mathematical operations. HiAP naturally converges to stable sub-networks using a loss function that incorporates both structural feasibility penalties and analytical FLOPs. Extensive experiments on ImageNet demonstrate that HiAP organically discovers highly efficient architectures, and achieves a competitive accuracy-efficiency Pareto frontier for models like DeiT-Small, matching the performance of sophisticated multi-stage methods while significantly simplifying the deployment pipeline.
- Abstract(参考訳): ビジョントランスフォーマーは計算資源とメモリ帯域幅を著しく制限し、エッジデバイスへの展開を著しく制限する。
最近の構造化プルーニング法は理論的FLOPの低減に成功しているが、通常は単一の構造的粒度で動作し、疎度予算を満たすためにポストホックしきい値を持つ複雑な多段パイプラインに依存している。
本稿では, 階層型オートプルーニング(HiAP)を提案する。これは, 手作業による重大ヒューリスティックスや, レイヤごとのスパーシティ目標を事前に定義することなく, 単一エンドツーエンドのトレーニングフェーズで最適なサブネットワークを発見する継続的緩和フレームワークである。
HiAPは複数の粒度の確率的ガンベル・シグモイドゲートを導入しており、マクロゲートは注目ヘッド全体とFFNブロックをプーンし、マイクロゲートは頭蓋内次元とFFNニューロンを選択的にプーンする。
両方のレベルを同時に最適化することで、HiAPは大きな行列をロードするメモリバウンドのオーバーヘッドと計算バウンドの数学的操作の両方に対処する。
HiAPは、構造的可能性ペナルティと解析的FLOPの両方を組み込んだ損失関数を用いて、安定したサブネットワークに自然に収束する。
ImageNetの大規模な実験では、HiAPが高効率なアーキテクチャを有機的に発見し、DeiT-Smallのようなモデルのための競合する精度効率のParetoフロンティアを実現し、洗練されたマルチステージメソッドのパフォーマンスにマッチし、デプロイメントパイプラインを著しく単純化している。
関連論文リスト
- MASPOB: Bandit-Based Prompt Optimization for Multi-Agent Systems with Graph Neural Networks [21.211097851224487]
MASPOB(Multi-Agent System Prompt Optimization via Bandits)は,バンディットに基づく新しいサンプル効率フレームワークである。
トポロジによる結合を処理するため、MASPOBはグラフニューラルネットワーク(GNN)を統合して、構造的事前をキャプチャし、プロンプトセマンティクスのトポロジ対応表現を学習する。
論文 参考訳(メタデータ) (2026-03-03T05:59:05Z) - Discrete-Guided Diffusion for Scalable and Safe Multi-Robot Motion Planning [56.240199425429445]
マルチロボット運動計画(MPMP)は、共有された連続作業空間で動作する複数のロボットのための軌道を生成する。
離散マルチエージェント探索(MAPF)法は,その拡張性から広く採用されているが,粗い離散化の軌道品質は高い。
本稿では、制約付き生成拡散モデルを用いた離散MAPF解法を導入することにより、2つのアプローチの限界に対処する。
論文 参考訳(メタデータ) (2025-08-27T17:59:36Z) - RPCANet++: Deep Interpretable Robust PCA for Sparse Object Segmentation [51.37553739930992]
RPCANet++は、RPCAの解釈可能性と効率的なディープアーキテクチャを融合したスパースオブジェクトセグメンテーションフレームワークである。
我々のアプローチは、緩やかなRPCAモデルを背景近似モジュール(BAM)、対象抽出モジュール(OEM)、画像復元モジュール(IRM)からなる構造化ネットワークに展開する。
さまざまなデータセットの実験では、RPCANet++がさまざまなイメージングシナリオの下で最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-08-06T08:19:37Z) - syftr: Pareto-Optimal Generative AI [40.80352098169579]
syftrはエージェントと非エージェントのRAG構成の広い領域で効率的な多目的探索を行うフレームワークである。
Syftrは、最も正確な流れの正確さを保ちながら、平均して9倍のコストで流れを見つける。
論文 参考訳(メタデータ) (2025-05-26T17:43:13Z) - HiLAB: A Hybrid Inverse-Design Framework [0.0]
HiLABはナノフォトニック構造の逆設計のための新しいパラダイムである。
シミュレーションコストを削減した多様なフリーフォーム構成を生成することで、多機能デバイス設計に対処する。
論文 参考訳(メタデータ) (2025-05-23T05:34:56Z) - Sculpting Features from Noise: Reward-Guided Hierarchical Diffusion for Task-Optimal Feature Transformation [18.670626228472877]
DIFFTは報酬誘導型生成タスクとしてフィーチャートランスフォーメーションを再定義する。
構造的かつ離散的な特徴を生成し、機能内依存関係を保持しながら、並列な機能間生成を可能にする。
予測精度とロバスト性において、最先端のベースラインを一貫して上回り、トレーニングや推論時間を大幅に低下させる。
論文 参考訳(メタデータ) (2025-05-21T06:18:42Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。