論文の概要: Attention Saturation and Gradient Suppression at Inflection Layers: Diagnosing and Mitigating Bottlenecks in Transformer Adaptation
- arxiv url: http://arxiv.org/abs/2511.00797v1
- Date: Sun, 02 Nov 2025 04:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.938578
- Title: Attention Saturation and Gradient Suppression at Inflection Layers: Diagnosing and Mitigating Bottlenecks in Transformer Adaptation
- Title(参考訳): インフレクション層における注意飽和とグラディエント抑制:トランスフォーマー適応におけるボトルネックの診断と緩和
- Authors: Wang Zixian,
- Abstract要約: 事前訓練されたトランスフォーマーは、ソースパターンに過剰な自信を示し、微調整中に新しいターゲットドメインパターンを形成するのが困難であることが多い。
我々は、標準のクロスエントロピーおよびソフトマックス解析により、勾配抑制につながる出力飽和のメカニズムを定式化する。
本稿では, 逆方向の抑圧信号の復元のために, インフレクション層にLoRAアダプタを選択的に挿入する, 診断ファーストでインジェクトライトの微調整戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Transformers often exhibit over-confidence in source patterns and difficulty in forming new target-domain patterns during fine-tuning. We formalize the mechanism of output saturation leading to gradient suppression through standard cross-entropy and softmax analysis, showing that gradient suppression at inflection layers confines adaptation to high-level recombination of existing features while preventing low-level reconstruction. We introduce a set of layer-wise diagnostic metrics -- attention entropy (saturation proxy), activation gradient norm, parameter gradient norm, and Delta-CKA under a shared PCA basis -- to identify inflection layers characterized by both low attention entropy and steep gradient decay. Building on these findings, we propose a diagnose-first, inject-light fine-tuning strategy: selectively inserting LoRA adapters at inflection layers to restore suppressed backward signals with minimal parameter overhead. Experiments on BERT-base transfer from SST-2 to Rotten Tomatoes under under-trained and over-trained source regimes reveal that over-trained initialization benefits from inflection-layer LoRA injection, while under-trained initialization suffers performance degradation. When base features are strong, unblocking inflection layers facilitates high-level compositional adaptation; when base features are weak, full-pathway unblocking is required for low-level reconstruction, as supported by joint analysis of layer-wise activation gradients and Delta-CKA dynamics.
- Abstract(参考訳): 事前訓練されたトランスフォーマーは、ソースパターンに過剰な自信を示し、微調整中に新しいターゲットドメインパターンを形成するのが困難であることが多い。
我々は,標準のクロスエントロピーとソフトマックス解析による勾配抑制につながる出力飽和機構を定式化し,インフレクション層における勾配抑制は,低レベル再構成を防止しつつ,既存の特徴の高レベル再結合への適応を抑えることを示した。
注意エントロピー(飽和プロキシ)、アクティベーション勾配ノルム、パラメータ勾配ノルム、デルタ-CKAを共有PCAベースで分析し、低アテンションエントロピーと急勾配減衰の両方を特徴とする反射層を同定する。
そこで本研究では, 反射層にLoRAアダプタを選択的に挿入し, 最小パラメータオーバヘッドで抑制された後方信号の復元を行う, 診断ファーストでインジェクトライトを微調整する手法を提案する。
SST-2からRotten Tomatoesへ過度にトレーニングされたソース条件下でのBERT塩基移動実験では、過度にトレーニングされた初期化は反射層LoRA注入による恩恵を受けるが、過度にトレーニングされた初期化は性能劣化に悩むことが示された。
ベース特性が強い場合、アンブロッキング・インフレクション・レイヤは、高レベルなコンポジション適応を促進するが、ベース特性が弱い場合には、階層的アクティベーション勾配とデルタ-CKAダイナミックスのジョイント解析によって支持されるように、フルパス・アンブロッキングが低レベルな再構築に必要である。
関連論文リスト
- Robust Depth Super-Resolution via Adaptive Diffusion Sampling [32.09035309959689]
AdaDSは任意の劣化した入力から高分解能深度マップを頑健に復元する。
AdaDSはガウス平滑化の収縮特性に乗じている。
実世界および合成ベンチマークの実験は、AdaDSの優れたゼロショット一般化を実証している。
論文 参考訳(メタデータ) (2026-02-10T08:10:02Z) - Understanding and Guiding Layer Placement in Parameter-Efficient Fine-Tuning of Large Language Models [19.448467763421707]
大規模言語モデル(LLM)は成長を続けており、パラメータ効率の良い微調整が下流適応のデフォルト戦略となっている。
現在のプラクティスは一般的に、すべてのレイヤに対してPEFTを統一的に適用し、レイヤの選択を限定的に理解または活用する。
本稿では,凍結ベースモデル上でPEFTの統一的残差ビューを開発する。
論文 参考訳(メタデータ) (2026-02-03T21:05:55Z) - The Inlet Rank Collapse in Implicit Neural Representations: Diagnosis and Unified Remedy [30.776360295485762]
Inlicit Neural Representations (INR)は、連続信号モデリングに革命をもたらしたが、有限の訓練予算内で細かな詳細を回復するのに苦労している。
本稿では,低次元の入力座標が高次元の埋め込み空間にまたがらない現象である"Inlet Rank Collapse'"を識別するための構造診断フレームワークを提案する。
アーキテクチャの変更や計算オーバーヘッドを伴わずに、階層幅で表示ランクを拡大する最小主義的な方法であるランク展開初期化(Rランク展開初期化)を導出する。
論文 参考訳(メタデータ) (2026-02-02T01:38:19Z) - SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers [16.976750197698063]
本研究では,深度にまたがってアライメントが表現にどう影響するかを測定する診断手法であるSPINALを紹介する。
モデルファミリ全体で、DPOは最終デコーダブロックに集中する層ワイドキャリブレーション効果を生成する。
調整されたチェックポイントは、収縮の後期層の増加と輸送の円滑な減少を示し、厳密で安定した政策質量と一致している。
論文 参考訳(メタデータ) (2026-01-08T17:47:12Z) - Uncertainty-Guided Selective Adaptation Enables Cross-Platform Predictive Fluorescence Microscopy [65.15943255667733]
自動深度選択機能付きサブネットワーク画像翻訳ADDA(SIT-ADDA-Auto)について紹介する。
より深い層を凍結しながら、最も初期の畳み込み層のみを適応させることで、信頼できる転送が得られることを示す。
この結果から,マイクロスコープにおけるラベルなし適応の設計規則とフィールド設定のレシピが提供され,コードが公開されている。
論文 参考訳(メタデータ) (2025-11-15T03:01:05Z) - Generative Model Inversion Through the Lens of the Manifold Hypothesis [98.37040155914595]
モデル反転攻撃(MIA)は、訓練されたモデルからクラス表現型サンプルを再構成することを目的としている。
最近の生成的MIAは、生成的敵ネットワークを使用して、反転過程を導く画像の事前学習を行う。
論文 参考訳(メタデータ) (2025-09-24T14:39:25Z) - CEM-FBGTinyDet: Context-Enhanced Foreground Balance with Gradient Tuning for tiny Objects [2.321156185872456]
マルチスケール機能拡張と適応最適化を統合した新しいアーキテクチャであるE-FPN-BSを提案する。
第一に、私たちのContext Enhancement Module(CEM)は、効率的なグローバルな融合のために高レベルな特徴を整列し、圧縮するためにデュアルブランチ処理を採用している。
第2に、フォアグラウンド-バックグラウンド分離モジュール(FBSM)は、識別領域を動的に増幅する空間ゲーティングマスクを生成する。
論文 参考訳(メタデータ) (2025-06-11T16:13:38Z) - GRILL: Gradient Signal Restoration in Ill-Conditioned Layers to Enhance Adversarial Attacks on Autoencoders [4.046100165562807]
GRILLは、不条件層における勾配信号を復元し、より効果的なノルムバウンド攻撃を可能にする手法である。
本手法は敵攻撃の有効性を著しく向上させ,より厳密なAEロバスト性評価を可能にした。
論文 参考訳(メタデータ) (2025-05-06T15:52:14Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Mjolnir: Breaking the Shield of Perturbation-Protected Gradients via Adaptive Diffusion [13.764770382623812]
フェデレートラーニングにおける勾配摂動保護のシールドを破ろうとする試みについて紹介する。
摂動抵抗性勾配漏洩攻撃であるMjolnirを導入する。
Mjolnirは、オリジナルのモデル構造や外部データへのアクセスを必要とせずに、勾配から摂動を取り除くことができる。
論文 参考訳(メタデータ) (2024-07-07T07:06:49Z) - Domain Generalization Guided by Gradient Signal to Noise Ratio of
Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。
本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文 参考訳(メタデータ) (2023-10-11T10:21:34Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。