論文の概要: Elastic ViTs from Pretrained Models without Retraining
- arxiv url: http://arxiv.org/abs/2510.17700v1
- Date: Mon, 20 Oct 2025 16:15:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.520222
- Title: Elastic ViTs from Pretrained Models without Retraining
- Title(参考訳): 事前学習モデルからの弾力的ViT
- Authors: Walter Simoncini, Michael Dorkenwald, Tijmen Blankevoort, Cees G. M. Snoek, Yuki M. Asano,
- Abstract要約: ビジョンファウンデーションモデルは優れたパフォーマンスを達成するが、事前決定されたサイズの限られたセットでしか利用できない。
本稿では, プルーニングされた視覚変換器のためのシングルショットネットワーク近似であるSnapViTを紹介する。
提案手法は,進化的アルゴリズムを用いて近似した勾配情報とクロスネットワーク構造相関を効率的に結合する。
- 参考スコア(独自算出の注目度): 74.5386166956142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision foundation models achieve remarkable performance but are only available in a limited set of pre-determined sizes, forcing sub-optimal deployment choices under real-world constraints. We introduce SnapViT: Single-shot network approximation for pruned Vision Transformers, a new post-pretraining structured pruning method that enables elastic inference across a continuum of compute budgets. Our approach efficiently combines gradient information with cross-network structure correlations, approximated via an evolutionary algorithm, does not require labeled data, generalizes to models without a classification head, and is retraining-free. Experiments on DINO, SigLIPv2, DeIT, and AugReg models demonstrate superior performance over state-of-the-art methods across various sparsities, requiring less than five minutes on a single A100 GPU to generate elastic models that can be adjusted to any computational budget. Our key contributions include an efficient pruning strategy for pretrained Vision Transformers, a novel evolutionary approximation of Hessian off-diagonal structures, and a self-supervised importance scoring mechanism that maintains strong performance without requiring retraining or labels. Code and pruned models are available at: https://elastic.ashita.nl/
- Abstract(参考訳): ビジョンファウンデーションモデルは、目覚ましいパフォーマンスを達成するが、決定済みのサイズの限られたセットでしか利用できないため、現実の制約下では、準最適デプロイメントの選択を強制する。
計算予算の連続体にわたって弾性推論を可能にする新しいプレトレーニング後構造化プルーニング手法であるPruned Vision Transformersのシングルショットネットワーク近似について紹介する。
進化的アルゴリズムによって近似された勾配情報とネットワーク間構造相関を効率的に結合し,ラベル付きデータを必要としない,分類ヘッドのないモデルに一般化し,再学習不要な手法を提案する。
DINO、SigLIPv2、DeIT、AugRegモデルに対する実験は、あらゆる計算予算に調整可能な弾力性のあるモデルを生成するために、1つのA100 GPUで5分以内の時間を要する、様々な領域にわたる最先端メソッドよりも優れたパフォーマンスを示す。
我々の重要な貢献は、事前訓練された視覚変換器の効率的なプルーニング戦略、ヘッセンオフ対角構造の新しい進化近似、そして、トレーニングやラベルを必要とせず、高い性能を維持する自己監督的な重要度評価機構である。
コードとプルーニングされたモデルは以下の通りである。
関連論文リスト
- Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - TOAST: Transformer Optimization using Adaptive and Simple Transformations [40.311292704886235]
ToASTは,全トランスバータブロックを軽量なクローズドフォームマッピングで近似する冗長性を利用するフレームワークである。
その結果,変圧器の深さの大部分は自明な関数に置き換えられ,効率的な基礎モデルに対する新たな視点が開かれた。
論文 参考訳(メタデータ) (2024-10-07T11:35:24Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Less is KEN: a Universal and Simple Non-Parametric Pruning Algorithm for Large Language Models [1.5807079236265718]
KENはカーネル密度推定(KDE)に基づく単純で普遍的で非構造化プルーニングアルゴリズムである
Kenは、最適化されたトランスフォーマーを構築することを目的としており、最も重要なパラメータを選択的に保存し、他のパラメータをトレーニング前の状態に復元する。
Kenは、元の未実行バージョンと同等かそれ以上のパフォーマンスを達成し、パラメータの最小25%の削減を実現している。
論文 参考訳(メタデータ) (2024-02-05T16:11:43Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Learning Intermediate Representations using Graph Neural Networks for
NUMA and Prefetchers Optimization [1.3999481573773074]
本稿では,コード中の静的中間表現(IR)が,性能プロファイリングの禁止コストを伴わずにNUMA/prefetcher最適化を導出する方法を示す。
静的中間表現に基づくモデルでは,高コストな動的性能プロファイリングに基づく戦略によって得られる性能向上の80%を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-01T16:51:30Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。