論文の概要: Accelerating Vision Foundation Models with Drop-in Depthwise Convolution
- arxiv url: http://arxiv.org/abs/2605.22132v1
- Date: Thu, 21 May 2026 08:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.15226
- Title: Accelerating Vision Foundation Models with Drop-in Depthwise Convolution
- Title(参考訳): 奥行き畳み込みによる視覚基礎モデルの高速化
- Authors: Carmelo Scribano, Mohammad Mahdi, Nedyalko Prisadnikov, Yuqian Fu, Giorgia Franchini, Danda Pani Paudel, Marko Bertogna, Luc Van Gool,
- Abstract要約: 我々は、注目ヘッドのドロップイン代替として機能する、効率的な奥行き畳み込みベースの層を導入する。
画像分類とセグメンテーションの両方のタスクにおいて,提案手法は性能劣化を最小限に抑えながら17~20%の推論高速化を実現している。
- 参考スコア(独自算出の注目度): 51.50107862675191
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pretrained vision foundation models deliver strong performance across tasks with limited fine-tuning. However, their Vision Transformer (ViT) backbones impose high inference costs, limiting deployment on resource-constrained devices. In this work, we accelerate large-scale pretrained ViTs while preserving their feature extraction capabilities by exploiting the intrinsic convolution-like behavior of some attention heads. Specifically, we introduce an efficient depthwise convolution-based layer that serves as a drop-in replacement for these heads. Additionally, we propose simple strategies to identify which heads can be replaced and introduce a fine-tuning procedure that recovers downstream task performance. Across both image classification and segmentation tasks, our method achieves 17-20\% percent inference speedup with minimal performance degradation. We validate the approach through detailed derivations, extensive experiments, and efficiency benchmarks. The reference implementation is publicly available.
- Abstract(参考訳): 事前訓練されたビジョンファウンデーションモデルは、微調整が限定されたタスク間で強力なパフォーマンスを提供する。
しかし、ViT(Vision Transformer)バックボーンは高い推論コストを課し、リソース制約のあるデバイスへのデプロイメントを制限している。
そこで本研究では,本研究は,注目頭部の内在的畳み込み様挙動を利用して,特徴抽出能力を保ちながら,大規模事前学習VTを高速化する。
具体的には、これらのヘッドのドロップイン代替として機能する、効率的な奥行き畳み込みベースの層を導入する。
さらに、どのヘッドを交換できるかを識別するための簡単な戦略を提案し、下流タスクのパフォーマンスを回復する微調整手順を導入する。
画像分類とセグメンテーションの両方のタスクにおいて,提案手法は性能劣化を最小限に抑えた17~20%の推論高速化を実現している。
我々は、詳細な導出、広範な実験、効率ベンチマークを通じてアプローチを検証する。
リファレンス実装は公開されています。
関連論文リスト
- FREE: Fast and Robust Vision Language Models with Early Exits [5.402030962296633]
我々は、GANベースのフレームワークにおいて、敵対的なトレーニングアプローチであるFREEを紹介する。
提案手法は,最小限の性能低下で推論速度を向上する入力適応推論を実行することに焦点を当てる。
我々は,提案手法が比較性能を維持しつつ,1.51倍以上の速度で推論処理を高速化することを確認した。
論文 参考訳(メタデータ) (2025-06-07T18:26:58Z) - Dyn-Adapter: Towards Disentangled Representation for Efficient Visual Recognition [22.615830919860777]
本稿では動的アダプタ(Dyn-Adapter)という,効率的な視覚認識パラダイムを提案する。
適応的なトレーニング戦略とともに,複数レベルの特徴抽出のための早期のバランスの取れた動的アーキテクチャを考案する。
予測中のFLOPを50%削減し,高い認識精度を維持した。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up
Patch Summarization [89.52943129132217]
本稿では,BUS という名前のボトムアップ・パッチ・サマリゼーション手法を提案し,視覚的トークン列の簡潔な要約を効率的に学習する。
テキスト・セマンティックス・アウェア・パッチセレクタ(TSPS)をViTバックボーンに組み込んで粗い粒度のビジュアルトークン抽出を行う。
このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり、改善したりすることができます。
論文 参考訳(メタデータ) (2023-07-17T14:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。