論文の概要: Trap of Feature Diversity in the Learning of MLPs
- arxiv url: http://arxiv.org/abs/2112.00980v1
- Date: Thu, 2 Dec 2021 04:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 14:36:50.545138
- Title: Trap of Feature Diversity in the Learning of MLPs
- Title(参考訳): MLP学習における特徴多様性のトラップ
- Authors: Dongrui Liu, Shaobo Wang, Jie Ren, Kangrui Wang, Sheng Yin, Quanshi
Zhang
- Abstract要約: 多層パーセプトロン(MLP)の学習における二相現象
第一段階では、トレーニング損失は著しく減少しないが、異なるサンプル間の特徴の類似性が増加し、特徴の多様性が損なわれる。
本研究では,2相現象を排除し,特徴量の減少を回避し,トレーニングプロセスを高速化する2つの正規化操作を提案する。
- 参考スコア(独自算出の注目度): 13.530122754551885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we discover a two-phase phenomenon in the learning of
multi-layer perceptrons (MLPs). I.e., in the first phase, the training loss
does not decrease significantly, but the similarity of features between
different samples keeps increasing, which hurts the feature diversity. We
explain such a two-phase phenomenon in terms of the learning dynamics of the
MLP. Furthermore, we propose two normalization operations to eliminate the
two-phase phenomenon, which avoids the decrease of the feature diversity and
speeds up the training process.
- Abstract(参考訳): 本稿では,多層パーセプトロン(MLP)の学習における二相現象について述べる。
第1フェーズでは、トレーニング損失が大幅に減少することはないが、異なるサンプル間の特徴の類似度が増加し、特徴の多様性が損なわれる。
MLPの学習力学の観点から,このような2相現象を説明する。
さらに,2相現象を排除し,特徴量の減少を回避し,トレーニングプロセスを高速化する2つの正規化操作を提案する。
関連論文リスト
- Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Uncovering Layer-Dependent Activation Sparsity Patterns in ReLU Transformers [2.1572258716881905]
我々は、トレーニングの過程でトークンレベルのスパーシリティがどのように進化し、より広いスパーシリティパターンにどのように結びつくかを探る。
特に、ネットワークの第一層と最後の層は、多くの点で、空間性との関係を逆転させることを実証する。
さらに、ReLU次元の「オフ」現象を探求し、「ニューロン死」がトレーニングのダイナミクスによって引き起こされていることを示す証拠を示す。
論文 参考訳(メタデータ) (2024-07-10T17:10:10Z) - Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction [53.88231294380083]
非連続的な学習シナリオと連続的な学習シナリオの両方に適合する、新しいMulti-Epoch Learning with Data Augmentation (MEDA)フレームワークを導入する。
MEDAは、その後のトレーニングデータへの埋め込み層の依存性を減らし、過度な適合を最小化する。
実験の結果,プレトレーニングした層が新しい埋め込み空間に適応し,過度に適合することなく性能を向上できることが確認された。
論文 参考訳(メタデータ) (2024-06-27T04:00:15Z) - Exploring Contrastive Learning for Long-Tailed Multi-Label Text Classification [48.81069245141415]
マルチラベルテキスト分類のための新しいコントラスト損失関数を提案する。
マイクロF1スコアは、他の頻繁に採用される損失関数と一致するか、上回っている。
これは、3つのマルチラベルデータセットでMacro-F1スコアが大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2024-04-12T11:12:16Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Sample-Efficient Learning of POMDPs with Multiple Observations In
Hindsight [105.6882315781987]
本稿では,部分観測可能なマルコフ決定過程(POMDP)における学習のサンプル効率について検討する。
「ゲームプレイにおけるローディングのような現実世界の設定に動機付けられて、後視における多重観察と呼ばれる強化されたフィードバックモデルを提案する。」
我々は,POMDPの2つのサブクラスに対して,サンプル効率の学習が可能であることを示した。
論文 参考訳(メタデータ) (2023-07-06T09:39:01Z) - Multi-layer Perceptron Trainability Explained via Variability [4.6108086988674835]
ニューラルネットワークの可変性は,データ空間におけるランドスケープパターンの豊かさを表す。
変動性はアクティベーションの数と正の相関を示し、「勾配への崩壊」と呼ばれる現象と負の相関を示す。
小さなスタイリングされたモデル問題の実験では、可変性は実際に正確にトレーニング可能性を予測することができる。
論文 参考訳(メタデータ) (2021-05-19T03:51:52Z) - Early Stopping in Deep Networks: Double Descent and How to Eliminate it [30.61588337557343]
ネットワークの異なる部分が異なるエポックで学習されるため、エポックワイズな二重降下が発生することを示す。
本研究では,2つの標準畳み込みネットワークを実証的に検討し,異なる階層の段差調整によるエポックな二重降下の除去が早期停止性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T13:43:33Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。