論文の概要: Attention Saturation and Gradient Suppression at Inflection Layers: Diagnosing and Mitigating Bottlenecks in Transformer Adaptation
- arxiv url: http://arxiv.org/abs/2511.00797v1
- Date: Sun, 02 Nov 2025 04:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.938578
- Title: Attention Saturation and Gradient Suppression at Inflection Layers: Diagnosing and Mitigating Bottlenecks in Transformer Adaptation
- Title(参考訳): インフレクション層における注意飽和とグラディエント抑制:トランスフォーマー適応におけるボトルネックの診断と緩和
- Authors: Wang Zixian,
- Abstract要約: 事前訓練されたトランスフォーマーは、ソースパターンに過剰な自信を示し、微調整中に新しいターゲットドメインパターンを形成するのが困難であることが多い。
我々は、標準のクロスエントロピーおよびソフトマックス解析により、勾配抑制につながる出力飽和のメカニズムを定式化する。
本稿では, 逆方向の抑圧信号の復元のために, インフレクション層にLoRAアダプタを選択的に挿入する, 診断ファーストでインジェクトライトの微調整戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Transformers often exhibit over-confidence in source patterns and difficulty in forming new target-domain patterns during fine-tuning. We formalize the mechanism of output saturation leading to gradient suppression through standard cross-entropy and softmax analysis, showing that gradient suppression at inflection layers confines adaptation to high-level recombination of existing features while preventing low-level reconstruction. We introduce a set of layer-wise diagnostic metrics -- attention entropy (saturation proxy), activation gradient norm, parameter gradient norm, and Delta-CKA under a shared PCA basis -- to identify inflection layers characterized by both low attention entropy and steep gradient decay. Building on these findings, we propose a diagnose-first, inject-light fine-tuning strategy: selectively inserting LoRA adapters at inflection layers to restore suppressed backward signals with minimal parameter overhead. Experiments on BERT-base transfer from SST-2 to Rotten Tomatoes under under-trained and over-trained source regimes reveal that over-trained initialization benefits from inflection-layer LoRA injection, while under-trained initialization suffers performance degradation. When base features are strong, unblocking inflection layers facilitates high-level compositional adaptation; when base features are weak, full-pathway unblocking is required for low-level reconstruction, as supported by joint analysis of layer-wise activation gradients and Delta-CKA dynamics.
- Abstract(参考訳): 事前訓練されたトランスフォーマーは、ソースパターンに過剰な自信を示し、微調整中に新しいターゲットドメインパターンを形成するのが困難であることが多い。
我々は,標準のクロスエントロピーとソフトマックス解析による勾配抑制につながる出力飽和機構を定式化し,インフレクション層における勾配抑制は,低レベル再構成を防止しつつ,既存の特徴の高レベル再結合への適応を抑えることを示した。
注意エントロピー(飽和プロキシ)、アクティベーション勾配ノルム、パラメータ勾配ノルム、デルタ-CKAを共有PCAベースで分析し、低アテンションエントロピーと急勾配減衰の両方を特徴とする反射層を同定する。
そこで本研究では, 反射層にLoRAアダプタを選択的に挿入し, 最小パラメータオーバヘッドで抑制された後方信号の復元を行う, 診断ファーストでインジェクトライトを微調整する手法を提案する。
SST-2からRotten Tomatoesへ過度にトレーニングされたソース条件下でのBERT塩基移動実験では、過度にトレーニングされた初期化は反射層LoRA注入による恩恵を受けるが、過度にトレーニングされた初期化は性能劣化に悩むことが示された。
ベース特性が強い場合、アンブロッキング・インフレクション・レイヤは、高レベルなコンポジション適応を促進するが、ベース特性が弱い場合には、階層的アクティベーション勾配とデルタ-CKAダイナミックスのジョイント解析によって支持されるように、フルパス・アンブロッキングが低レベルな再構築に必要である。
関連論文リスト
- CEM-FBGTinyDet: Context-Enhanced Foreground Balance with Gradient Tuning for tiny Objects [2.321156185872456]
マルチスケール機能拡張と適応最適化を統合した新しいアーキテクチャであるE-FPN-BSを提案する。
第一に、私たちのContext Enhancement Module(CEM)は、効率的なグローバルな融合のために高レベルな特徴を整列し、圧縮するためにデュアルブランチ処理を採用している。
第2に、フォアグラウンド-バックグラウンド分離モジュール(FBSM)は、識別領域を動的に増幅する空間ゲーティングマスクを生成する。
論文 参考訳(メタデータ) (2025-06-11T16:13:38Z) - GRILL: Gradient Signal Restoration in Ill-Conditioned Layers to Enhance Adversarial Attacks on Autoencoders [4.046100165562807]
GRILLは、不条件層における勾配信号を復元し、より効果的なノルムバウンド攻撃を可能にする手法である。
本手法は敵攻撃の有効性を著しく向上させ,より厳密なAEロバスト性評価を可能にした。
論文 参考訳(メタデータ) (2025-05-06T15:52:14Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Mjolnir: Breaking the Shield of Perturbation-Protected Gradients via Adaptive Diffusion [13.764770382623812]
フェデレートラーニングにおける勾配摂動保護のシールドを破ろうとする試みについて紹介する。
摂動抵抗性勾配漏洩攻撃であるMjolnirを導入する。
Mjolnirは、オリジナルのモデル構造や外部データへのアクセスを必要とせずに、勾配から摂動を取り除くことができる。
論文 参考訳(メタデータ) (2024-07-07T07:06:49Z) - Domain Generalization Guided by Gradient Signal to Noise Ratio of
Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。
本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文 参考訳(メタデータ) (2023-10-11T10:21:34Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。