論文の概要: Exploiting Layer Normalization Fine-tuning in Visual Transformer Foundation Models for Classification
- arxiv url: http://arxiv.org/abs/2508.07577v1
- Date: Mon, 11 Aug 2025 03:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.921555
- Title: Exploiting Layer Normalization Fine-tuning in Visual Transformer Foundation Models for Classification
- Title(参考訳): 視覚変換器基礎モデルにおける爆発層正規化微調整による分類
- Authors: Zhaorui Tan, Tan Pan, Kaizhu Huang, Weimiao Yu, Kai Yao, Chen Jiang, Qiufeng Wang, Anh Nguyen, Xin Guo, Yuan Cheng, Xi Yang,
- Abstract要約: 微調整後のLayerNormパラメータの変化は、ソースとターゲットドメイン間の遷移を示していることを示す。
本研究は,移動学習におけるLayerNormの過小評価力学を解明し,LayerNormの微調整のための実践的戦略を提供する。
- 参考スコア(独自算出の注目度): 30.16664767564679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LayerNorm is pivotal in Vision Transformers (ViTs), yet its fine-tuning dynamics under data scarcity and domain shifts remain underexplored. This paper shows that shifts in LayerNorm parameters after fine-tuning (LayerNorm shifts) are indicative of the transitions between source and target domains; its efficacy is contingent upon the degree to which the target training samples accurately represent the target domain, as quantified by our proposed Fine-tuning Shift Ratio ($FSR$). Building on this, we propose a simple yet effective rescaling mechanism using a scalar $\lambda$ that is negatively correlated to $FSR$ to align learned LayerNorm shifts with those ideal shifts achieved under fully representative data, combined with a cyclic framework that further enhances the LayerNorm fine-tuning. Extensive experiments across natural and pathological images, in both in-distribution (ID) and out-of-distribution (OOD) settings, and various target training sample regimes validate our framework. Notably, OOD tasks tend to yield lower $FSR$ and higher $\lambda$ in comparison to ID cases, especially with scarce data, indicating under-represented target training samples. Moreover, ViTFs fine-tuned on pathological data behave more like ID settings, favoring conservative LayerNorm updates. Our findings illuminate the underexplored dynamics of LayerNorm in transfer learning and provide practical strategies for LayerNorm fine-tuning.
- Abstract(参考訳): LayerNormはViT(Vision Transformers)において中心的な役割を担っているが、データ不足とドメインシフトによる微調整のダイナミクスはいまだ検討されていない。
本稿では,微調整後のLayerNormパラメータの変化がソースドメインとターゲットドメインの遷移を示すことを示し,その効果は,提案した微調整シフト比(FSR$)が示すように,ターゲットトレーニングサンプルが対象ドメインを正確に表現する程度に一致していることを示す。
これに基づいて、学習したLayerNormシフトと完全な代表データの下で達成された理想的なシフトを整合させるために、学習したLayerNormシフトに負の相関を持つscalar $\lambda$を用いて、単純で効果的な再スケーリング機構を提案する。
自然画像と病理画像にまたがる広範囲な実験は、分布内(ID)と分布外(OOD)の設定の両方で行われ、様々なトレーニングサンプルが本フレームワークを検証した。
特に、OODタスクはIDケースと比較してFSR$が低く、\lambda$が高くなる傾向にある。
さらに、病理データに微調整されたViTFは、よりID設定のように振舞い、保守的なLayerNorm更新を好む。
本研究は,移動学習におけるLayerNormの過小評価力学を解明し,LayerNormの微調整のための実践的戦略を提供する。
関連論文リスト
- A Principled Bayesian Framework for Training Binary and Spiking Neural Networks [1.6658912537684454]
スパイキングベイズニューラルネットワーク(英: Spiking Bayesian Neural Networks、SBNN)は、後部雑音を用いてIW-STでバイナリニューラルネットワークとスパイキングニューラルネットワークを訓練する変分推論フレームワークである。
低バイアス条件、消失勾配、KL項をリンクすることにより、正規化なしで深い残留ネットワークのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T14:33:20Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - DRAG: Divergence-based Adaptive Aggregation in Federated learning on
Non-IID Data [11.830891255837788]
局所勾配降下(SGD)は、フェデレートラーニング(FL)におけるコミュニケーション効率向上の基本的なアプローチである
我々は,局所勾配と大域基準方向の角度を定量化する「発散度」と呼ばれる新しい計量を導入する。
本稿では,各ラウンドの参照方向に対して受信した局所的な更新を,余分な通信オーバーヘッドを伴わずに動的にドラッグする分散型アダプティブアグリゲーション(DRAG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-04T19:40:58Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Surgical Fine-Tuning Improves Adaptation to Distribution Shifts [114.17184775397067]
分散シフト下での伝達学習の一般的なアプローチは、事前訓練されたモデルの最後の数層を微調整することである。
本稿は, 階層のサブセットを選択的に微調整する手法が, 一般的に用いられている微調整手法と一致し, 性能が良くないことを示す。
論文 参考訳(メタデータ) (2022-10-20T17:59:15Z) - Exploring Heterogeneous Characteristics of Layers in ASR Models for More
Efficient Training [1.3999481573773072]
ランとモデルサイズにまたがるこれらの層の安定性について検討する。
群正規化は, 群形成を乱すことなく適用できる可能性が示唆された。
これらの知見をフェデレートラーニングに適用して,トレーニング手順の改善を図る。
論文 参考訳(メタデータ) (2021-10-08T17:25:19Z) - Anatomy of Domain Shift Impact on U-Net Layers in MRI Segmentation [0.08156494881838945]
SpotTUnetはCNNアーキテクチャであり、最適に微調整されるべきレイヤを自動的に選択する。
本手法は,アノテートデータの極端な不足下においても,非フレキシブル微調整法と同等の精度で動作可能であることを示す。
論文 参考訳(メタデータ) (2021-07-10T21:13:55Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。