論文の概要: Learning to Perturb Hidden Representations for Generalizable Deep Learning
- arxiv url: http://arxiv.org/abs/2605.29525v1
- Date: Thu, 28 May 2026 07:41:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.96044
- Title: Learning to Perturb Hidden Representations for Generalizable Deep Learning
- Title(参考訳): 一般化可能なディープラーニングのための隠れ表現の摂動学習
- Authors: Hua Li,
- Abstract要約: また,Dropout, Manifold Mixup, 対向的特徴摂動, 関連手法はいずれも, 特定の形態のアクティベーション摂動を課すが, クラスに依存しない, ランダムな戦略を課す。
本稿では,PGDを用いて学習したクラスレベルの摂動を持つ隠蔽層において,アクティベーションを適応的に摂動するLPA(Learning to Perturb Activation)を提案する。
- 参考スコア(独自算出の注目度): 3.2608238154676843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks process data through a cascade of representations: input features, hidden activations, logits, and loss. While perturbations at the input, logit, and label levels have been systematically studied, the intermediate hidden activations, which constitute the bulk of the network's computation, have received no unified perturbation analysis. In this paper, we establish a unified framework for hidden activation perturbation, revealing that Dropout, Manifold Mixup, adversarial feature perturbation, and related methods all impose specific forms of activation perturbation but with class-agnostic or random strategies. We conjecture that expansive perturbation (increasing activation norm) acts as positive augmentation, while contractive perturbation (decreasing activation norm) acts as negative augmentation, and that the perturbation layer determines whether the effect resembles input-level augmentation (shallow layers) or logit-level manipulation (deep layers). We propose Learning to Perturb Activations (LPA), which adaptively perturbs activations at a selected hidden layer with class-level perturbations learned via PGD. We further provide theoretical analysis connecting activation perturbation to flat minima and perturbation amplification through layers. Experiments on balanced classification, long-tail classification, and domain generalization demonstrate that LPA consistently outperforms existing methods and provides complementary benefits to logit perturbation methods such as LPL.
- Abstract(参考訳): ディープニューラルネットワークは、入力特徴、隠れたアクティベーション、ロジット、損失という、一連の表現のカスケードを通じてデータを処理する。
入力、ロジット、ラベルレベルの摂動は体系的に研究されているが、ネットワークの計算の大部分を構成する中間的隠れアクティベーションは、統一的な摂動解析を受けていない。
本稿では,Dropout, Manifold Mixup, adversarial feature perturbation, 関連手法が, 特定の種類のアクティベーション摂動を課すが, クラスに依存しない, ランダムな戦略を用いて, 隠れアクティベーション摂動のための統一的な枠組みを確立する。
拡張的摂動(アクティベーションノルムの増加)は正の増大として作用し、一方、収縮的摂動(アクティベーションノルムの減少)は負の増大として作用し、摂動層は、その効果が入力レベル拡張(浅層)やロジトレベルの操作(深層)に類似しているかどうかを判断する。
本稿では,PGDを用いて学習したクラスレベルの摂動を持つ隠蔽層において,アクティベーションを適応的に摂動するLPA(Learning to Perturb Activation)を提案する。
さらに,活性化摂動を平らなミニマに接続し,層を通した摂動増幅を理論的に解析する。
バランスの取れた分類、長い尾の分類、領域の一般化の実験は、LPAが既存の手法を一貫して上回り、LPLのような対流摂動法に相補的な利点をもたらすことを示した。
関連論文リスト
- Gradient Perturbation: Learning to Perturb Gradients for Adaptive Training [3.2608238154676843]
勾配の摂動は 体系的な調査がほとんどありません
本稿では,クラスレベルでのロジトレベルの勾配を適応的に摂動し,カテゴリ認識学習を実現するLPG(Learning to Perturb Gradients)を提案する。
バランスの取れた分類、長い尾の分類、ノイズの多いラベル学習の実験では、LPGは既存の手法よりも一貫して優れており、プラグインモジュールとして組み合わせることができる。
論文 参考訳(メタデータ) (2026-05-28T07:19:36Z) - A Single Layer to Explain Them All:Understanding Massive Activations in Large Language Models [56.03096341469333]
大規模言語モデル(LLM)における大規模アクティベーションの起源について検討する。
モデルファミリ間で一貫して観察されるtextbfMassive Emergence Layer (ME Layer) と呼ばれる特定の層を同定する。
RMSNormとFFNパラメータの両方がME層内で大きな活性化の出現に共同して寄与していることを示す。
本研究では,この制限により,大規模アクティベーショントークンの剛性を簡易かつ効果的に低減する手法を提案する。
論文 参考訳(メタデータ) (2026-05-08T21:37:27Z) - When Does Sparsity Mitigate the Curse of Depth in LLMs [53.137717161619484]
本研究では,分散伝播の規制として空間空間が機能し,深度利用が向上することを示す。
以上の結果から,大規模な言語モデルにおいて,より効率的な深度スケーリングを実現するための重要なメカニズムとして,スパーシリティが明らかとなった。
論文 参考訳(メタデータ) (2026-03-16T15:04:16Z) - Probe-Free Low-Rank Activation Intervention [26.502232859901167]
隠れたアクティベーションを編集する推論時間の介入は、望ましい世代に向けてLMを操る有望な結果を示している。
本稿では,特定のアクティベーション層内のすべての注意点に対するプローブフリー干渉法FLORAINを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:03:05Z) - Learning Neural Networks with Sparse Activations [42.88109060676769]
変圧器ネットワークでは、このブロックの隠された層における活性化は、任意の入力に対して非常に緩い傾向にある。
ネットワークから除去できるニューロンやウェイトが存在する従来のスペーシリティとは異なり、このエムアクティベーションのスペーシリティは利用するのが困難である。
関数のクラスが証明可能な計算と統計上の優位性をもたらすことを示す様々な結果を示す。
論文 参考訳(メタデータ) (2024-06-26T00:11:13Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - The Impact of Activation Sparsity on Overfitting in Convolutional Neural
Networks [1.9424280683610138]
オーバーフィッティングは畳み込みニューラルネットワークのトレーニングにおける基本的な課題の1つです。
本研究では,レイヤワイドアクティベーション対策の導出と可視化を目的としたパープレキシティに基づく空間性定義を提案する。
論文 参考訳(メタデータ) (2021-04-13T12:55:37Z) - Interpreting Deep Neural Networks with Relative Sectional Propagation by
Analyzing Comparative Gradients and Hostile Activations [37.11665902583138]
DNN(Deep Neural Networks)の出力予測を分解するための新しいアトリビューション手法であるRelative Sectional Propagation(RSP)を提案する。
我々は、敵対的因子をターゲットの属性を見つけるのを妨げる要素として定義し、活性化ニューロンの非抑制的な性質を克服するために区別可能な方法でそれを伝播させる。
本手法により,従来の帰属法と比較して,DNNのクラス識別性や活性化ニューロンの詳細な解明により,DNNの予測を分解することができる。
論文 参考訳(メタデータ) (2020-12-07T03:11:07Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。