論文の概要: ViT-Split: Unleashing the Power of Vision Foundation Models via Efficient Splitting Heads
- arxiv url: http://arxiv.org/abs/2506.03433v1
- Date: Tue, 03 Jun 2025 22:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.075014
- Title: ViT-Split: Unleashing the Power of Vision Foundation Models via Efficient Splitting Heads
- Title(参考訳): ViT-Split:効率的なスプリッティングヘッドによるビジョンファウンデーションモデルのパワーの解放
- Authors: Yifan Li, Xin Li, Tianqin Li, Wenbin He, Yu Kong, Liu Ren,
- Abstract要約: ビジョンファウンデーションモデル(VFM)は、幅広い下流タスクで顕著な性能を示した。
いくつかのVFMアダプタは、VFMの事前の知識を活用して有望な結果を示したが、これらの手法の2つの非効率性を同定した。
我々は、VFMの層を2つの異なる構成要素に分割できる、ViT-Splitと呼ばれる新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 32.34059866803441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision foundation models (VFMs) have demonstrated remarkable performance across a wide range of downstream tasks. While several VFM adapters have shown promising results by leveraging the prior knowledge of VFMs, we identify two inefficiencies in these approaches. First, the interaction between convolutional neural network (CNN) and VFM backbone triggers early layer gradient backpropagation. Second, existing methods require tuning all components, adding complexity. Besides, these adapters alter VFM features, underutilizing the prior knowledge. To tackle these challenges, we propose a new approach called ViT-Split, based on a key observation: the layers of several VFMs, like DINOv2, can be divided into two distinct components: an extractor for learning low-level features and an adapter for learning task-specific features. Leveraging this insight, we eliminate the CNN branch and introduce two heads, task head and prior head, to the frozen VFM. The task head is designed to learn task-specific features, mitigating the early gradient propagation issue. The prior head is used to leverage the multi-scale prior features from the frozen VFM, reducing tuning parameters and overfitting. Extensive experiments on various tasks (e.g., segmentation, detection, depth estimation, and visual question answering) validate the effectiveness and efficiency of ViT-Split. Specifically, ViT-Split reduces training time up to $4\times$ while achieving comparable or even better results on ADE20K, compared to other VFM adapters.
- Abstract(参考訳): ビジョンファウンデーションモデル(VFM)は、幅広い下流タスクで顕著な性能を示した。
いくつかのVFMアダプタは、VFMの事前の知識を活用して有望な結果を示したが、これらの手法の2つの非効率性を同定した。
まず、畳み込みニューラルネットワーク(CNN)とVFMバックボーンの相互作用により、初期の層勾配のバックプロパゲーションが引き起こされる。
第二に、既存のメソッドはすべてのコンポーネントをチューニングし、複雑さを追加する必要がある。
さらに、これらのアダプタはVFMの機能を変更し、事前の知識を活用できない。
DINOv2のような複数のVFMの層は、低レベルの特徴を学習するための抽出器と、タスク固有の特徴を学習するためのアダプタの2つに分けることができる。
この知見を活用して、凍結したVFMにCNNブランチを排除し、タスクヘッドと前ヘッドの2つのヘッドを導入する。
タスクヘッドはタスク固有の特徴を学習し、初期勾配伝搬問題を緩和するように設計されている。
前のヘッドは凍結されたVFMのマルチスケール前の特徴を活用するために使われ、チューニングパラメータとオーバーフィッティングが削減される。
様々なタスク(例えば、セグメンテーション、検出、深さ推定、視覚的質問応答)における広範囲な実験は、ViT-Splitの有効性と効率を検証した。
具体的には、ViT-Splitは、他のVFMアダプタと比較して、ADE20Kのトレーニング時間を最大4ドルまで短縮する。
関連論文リスト
- MemoryOut: Learning Principal Features via Multimodal Sparse Filtering Network for Semi-supervised Video Anomaly Detection [30.470777079947958]
再構成や予測に基づくビデオ異常検出(VAD)手法は2つの重要な課題に直面している。
強い一般化能力は、しばしば正確な再構築や異常事象の予測をもたらす。
低レベルの外観と動きの手がかりにのみ依存することは、複雑なシーンから異常な出来事における高レベルの意味を識別する能力を制限する。
論文 参考訳(メタデータ) (2025-06-03T07:14:57Z) - Benchmarking Feature Upsampling Methods for Vision Foundation Models using Interactive Segmentation [24.531539125814877]
Vision Foundation Models (VFM) は、様々なコンピュータビジョンタスクの汎用バックボーンとして機能する大規模で事前訓練されたモデルである。
この制限に対処する1つの方法は、VFM機能の解像度を洗練させるタスクに依存しない機能アップサンプリングモジュールを使用することである。
ベンチマーク実験により,適切なアップサンプリング戦略を選択することで,VFMの特徴的品質が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-04T11:59:26Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.07145427268948]
我々は、慎重に設計された実験プロトコルを用いて、基礎モデル(FM)の映像理解能力を評価する。
一般的な映像理解タスクに適応する際のFMの目印と有効性について共同で検討する。
論文 参考訳(メタデータ) (2023-07-06T17:47:52Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。