論文の概要: APLA: A Simple Adaptation Method for Vision Transformers
- arxiv url: http://arxiv.org/abs/2503.11335v2
- Date: Mon, 24 Mar 2025 10:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:29:33.908203
- Title: APLA: A Simple Adaptation Method for Vision Transformers
- Title(参考訳): APLA:視覚変換器の簡易適応法
- Authors: Moein Sorkhei, Emir Konuk, Kevin Smith, Christos Matsoukas,
- Abstract要約: Intention Projection Layer Adaptation (APLA)は、アーキテクチャの変更やパラメータの追加なしに視覚変換器(ViT)を適応するためのシンプルなアプローチである。
APLAは最先端のパフォーマンスを実現し、GPUメモリ使用量を52.63%削減し、トレーニング時間を最大43.0%削減する。
- 参考スコア(独自算出の注目度): 3.2667242653630417
- License:
- Abstract: Existing adaptation techniques typically require architectural modifications or added parameters, leading to high computational costs and complexity. We introduce Attention Projection Layer Adaptation (APLA), a simple approach to adapt vision transformers (ViTs) without altering the architecture or adding parameters. Through a systematic analysis, we find that the layer immediately after the attention mechanism is crucial for adaptation. By updating only this projection layer, or even just a random subset of this layer's weights, APLA achieves state-of-the-art performance while reducing GPU memory usage by up to 52.63% and training time by up to 43.0%, with no extra cost at inference. Across 46 datasets covering a variety of tasks including scene classification, medical imaging, satellite imaging, and fine-grained classification, APLA consistently outperforms 17 other leading adaptation methods, including full fine-tuning, on classification, segmentation, and detection tasks. The code is available at https://github.com/MoeinSorkhei/APLA.
- Abstract(参考訳): 既存の適応技術はアーキテクチャの変更やパラメータの追加を必要とし、高い計算コストと複雑さをもたらす。
Intention Projection Layer Adaptation (APLA)は、アーキテクチャの変更やパラメータの追加なしに視覚変換器(ViT)を適応するためのシンプルなアプローチである。
システム解析により,注意機構の直後の層が適応に不可欠であることが判明した。
このプロジェクション層のみを更新するか、あるいはこのレイヤのランダムなサブセットだけを更新することで、APLAはGPUメモリ使用量を52.63%削減し、トレーニング時間を最大43.0%削減し、推論に余分なコストを要さず、最先端のパフォーマンスを達成する。
シーン分類、医用画像、衛星画像、きめ細かい分類を含む46のデータセットを網羅し、APLAは、完全な微調整、分類、セグメンテーション、検出タスクを含む17の主要な適応手法を一貫して上回っている。
コードはhttps://github.com/MoeinSorkhei/APLAで公開されている。
関連論文リスト
- p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Language models are good pathologists: using attention-based sequence
reduction and text-pretrained transformers for efficient WSI classification [0.21756081703275998]
全体スライド画像(WSI)解析は通常、多重インスタンス学習(MIL)問題として定式化される。
textitSeqShortは、各WSIを固定サイズと短サイズのインスタンスのシーケンスで要約するシーケンス短縮レイヤである。
本稿では,大容量のテキストデータに対して,下流トランスフォーマーアーキテクチャの事前訓練を行った場合,WSI分類性能が向上することを示す。
論文 参考訳(メタデータ) (2022-11-14T14:11:31Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。