論文の概要: Enhancing Parameter-Efficient Fine-Tuning of Vision Transformers through Frequency-Based Adaptation
- arxiv url: http://arxiv.org/abs/2411.19297v1
- Date: Thu, 28 Nov 2024 18:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:21:52.874041
- Title: Enhancing Parameter-Efficient Fine-Tuning of Vision Transformers through Frequency-Based Adaptation
- Title(参考訳): 周波数ベース適応による視覚変換器のパラメータ効率向上
- Authors: Son Thai Ly, Hien V. Nguyen,
- Abstract要約: 本稿では、モデル適応性を高めるために、VTブロック間の新しい周波数ファインチューニングモジュールであるFreqFitを紹介する。
FreqFitは、1%から16%のパフォーマンス向上で、元のPEFTメソッドよりも一貫してパフォーマンスを改善している。
- 参考スコア(独自算出の注目度): 0.3683202928838613
- License:
- Abstract: Adapting vision transformer foundation models through parameter-efficient fine-tuning (PEFT) methods has become increasingly popular. These methods optimize a limited subset of parameters, enabling efficient adaptation without the need to fine-tune the entire model while still achieving competitive performance. However, traditional PEFT methods may limit the model's capacity to capture complex patterns, especially those associated with high-frequency spectra. This limitation becomes particularly problematic as existing research indicates that high-frequency features are crucial for distinguishing subtle image structures. To address this issue, we introduce FreqFit, a novel Frequency Fine-tuning module between ViT blocks to enhance model adaptability. FreqFit is simple yet surprisingly effective, and can be integrated with all existing PEFT methods to boost their performance. By manipulating features in the frequency domain, our approach allows models to capture subtle patterns more effectively. Extensive experiments on 24 datasets, using both supervised and self-supervised foundational models with various state-of-the-art PEFT methods, reveal that FreqFit consistently improves performance over the original PEFT methods with performance gains ranging from 1% to 16%. For instance, FreqFit-LoRA surpasses the performances of state-of-the-art baselines on CIFAR100 by more than 10% even without applying regularization or strong augmentation. For reproducibility purposes, the source code is available at https://github.com/tsly123/FreqFiT.
- Abstract(参考訳): パラメータ効率細調整(PEFT)手法による視覚トランスフォーマー基礎モデルの適応化がますます普及している。
これらの手法はパラメータの限られたサブセットを最適化し、競争性能を保ちながらモデル全体を微調整することなく効率的な適応を可能にする。
しかし、従来のPEFT法は、特に高周波スペクトルに関連する複雑なパターンを捉える能力を制限する可能性がある。
この制限は、既存の研究では、微妙な画像構造を区別するために高周波の特徴が不可欠であることを示しているため、特に問題となる。
この問題に対処するために、モデル適応性を高めるために、VTブロック間の新しい周波数ファインチューニングモジュールであるFreqFitを紹介する。
FreqFitはシンプルだが驚くほど効果的で、既存のPEFTメソッドと統合してパフォーマンスを向上させることができる。
周波数領域の機能を操作することにより、モデルがより効果的に微妙なパターンをキャプチャできる。
さまざまな最先端PEFT手法を用いた教師付きおよび自己教師型基礎モデルを用いた24種類のデータセットに対する大規模な実験により、FreqFitは、1%から16%のパフォーマンス向上により、元のPEFT手法よりも一貫してパフォーマンスを改善していることが明らかとなった。
例えば、FreqFit-LoRAは、正規化や強力な拡張を適用しなくても、CIFAR100の最先端ベースラインのパフォーマンスを10%以上上回る。
再現性のために、ソースコードはhttps://github.com/tsly123/FreqFiT.comで入手できる。
関連論文リスト
- FreqMixFormerV2: Lightweight Frequency-aware Mixed Transformer for Human Skeleton Action Recognition [9.963966059349731]
FreqMixForemrV2は、微妙で差別的なアクションを特定するために、周波数対応のMixed Transformer(FreqMixFormer)上に構築されている。
提案手法は, 精度と効率のバランスが良く, パラメータの60%しか持たない最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-12-29T23:52:40Z) - Mixture of Physical Priors Adapter for Parameter-Efficient Fine-Tuning [41.19870454097444]
本稿では,ネットワークの重み付けを物理的に組み合わせてモデル化する手法を提案する。
熱拡散、波動伝播、ポアソンの定常方程式の3つの基礎方程式がそれぞれ固有のモデリング特性に寄与する。
MoPPAはPEFTの精度を最大2.1%向上させる。
論文 参考訳(メタデータ) (2024-12-03T19:00:34Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Federated Fine-Tuning of Foundation Models via Probabilistic Masking [11.192113661738764]
ファンデーションモデル(FM)は、タスク間の適応性とハイパフォーマンスで機械学習に革命をもたらした。
フェデレートラーニング(FL)への統合は、広範囲なパラメータ化による通信オーバーヘッドが大きいため、難しい。
FLのFMを1bpp以下で効率よく微調整する新しい手法であるDeltaMaskを提案する。
論文 参考訳(メタデータ) (2023-11-29T01:10:39Z) - Exploring Frequency-Inspired Optimization in Transformer for Efficient Single Image Super-Resolution [32.29219284419944]
クロスリファインメント適応型特徴変調トランス(CRAFT)
CRAFTの効率向上を目的とした周波数誘導後量子化(PTQ)手法を提案する。
以上の結果より, CRAFTは現状の方法よりも優れていることが示唆された。
論文 参考訳(メタデータ) (2023-08-09T15:38:36Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。