論文の概要: Batch Normalization Is Blind to the First and Second Derivatives of the
Loss
- arxiv url: http://arxiv.org/abs/2205.15146v2
- Date: Thu, 2 Jun 2022 09:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 11:23:25.372910
- Title: Batch Normalization Is Blind to the First and Second Derivatives of the
Loss
- Title(参考訳): バッチ正規化は損失の第1および第2導関数に盲目である
- Authors: Zhanpeng Zhou, Wen Shen, Huixin Chen, Ling Tang, Quanshi Zhang
- Abstract要約: BN操作が損失の第1および第2誘導体のバックプロパゲーションに及ぼす影響を実証する。
このような問題はBN演算の標準化フェーズによって引き起こされる。
- 参考スコア(独自算出の注目度): 25.10707023959245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we prove the effects of the BN operation on the
back-propagation of the first and second derivatives of the loss. When we do
the Taylor series expansion of the loss function, we prove that the BN
operation will block the influence of the first-order term and most influence
of the second-order term of the loss. We also find that such a problem is
caused by the standardization phase of the BN operation. Experimental results
have verified our theoretical conclusions, and we have found that the BN
operation significantly affects feature representations in specific tasks,
where losses of different samples share similar analytic formulas.
- Abstract(参考訳): 本稿では,BN操作が損失の第1および第2誘導体のバックプロパゲーションに及ぼす影響を実証する。
損失関数のテイラー級数展開を行うとき、BN演算が損失の1次項の影響と2次項の最も大きな影響を阻害することを証明する。
また,この問題の原因はBN演算の標準化段階にあることも確認した。
実験の結果, BN演算は特定のタスクの特徴表現に大きく影響し, 異なるサンプルの損失が同様の解析式を共有することがわかった。
関連論文リスト
- Dual-Head Knowledge Distillation: Enhancing Logits Utilization with an Auxiliary Head [38.898038672237746]
本稿では,広く使用されている確率レベル損失関数の補足として,ロジットレベル損失関数を導入する。
新たに導入されたロジットレベルの損失と,それ以前の確率レベルの損失の合計は,性能劣化につながる。
本稿では, 線形分類器を2つの分類ヘッドに分割し, 損失の異なる2つの分類ヘッドに分割する, 二重知識蒸留法を提案する。
論文 参考訳(メタデータ) (2024-11-13T12:33:04Z) - Physics-Informed Neural Networks: Minimizing Residual Loss with Wide Networks and Effective Activations [5.731640425517324]
特定の条件下では、広いニューラルネットワークによってPINNの残留損失を世界規模で最小化できることを示す。
良好な高次導関数を持つ活性化関数は、残留損失を最小限に抑える上で重要な役割を果たす。
確立された理論は、PINNの効果的な活性化関数の設計と選択の道を開く。
論文 参考訳(メタデータ) (2024-05-02T19:08:59Z) - Unified Batch Normalization: Identifying and Alleviating the Feature
Condensation in Batch Normalization and a Unified Framework [55.22949690864962]
バッチ正規化(BN)は、現代のニューラルネットワーク設計において欠かせない技術となっている。
UBN(Unified Batch Normalization)と呼ばれる2段階統合フレームワークを提案する。
UBNは異なる視覚バックボーンと異なる視覚タスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-27T16:41:31Z) - Expressive Losses for Verified Robustness via Convex Combinations [67.54357965665676]
本研究では, 過近似係数と異なる表現的損失に対する性能分布の関係について検討した。
表現性が不可欠である一方で、最悪の場合の損失のより良い近似は、必ずしも優れた堅牢性-正確性トレードオフに結びついていないことを示す。
論文 参考訳(メタデータ) (2023-05-23T12:20:29Z) - On the Performance of Direct Loss Minimization for Bayesian Neural
Networks [7.228820747275171]
直接損失最小化(DLM)は、正規化損失最小化を動機とする擬ベイズ法として提案されている。
本稿では,BNN における DLM の実用的性能,その失敗の原因と ELBO の最適化との関係について検討する。
論文 参考訳(メタデータ) (2022-11-15T18:39:06Z) - How Tempering Fixes Data Augmentation in Bayesian Neural Networks [22.188535244056016]
テンパリングは、拡張のモデリングから生じる誤特定を暗黙的に減らし、すなわちデータとして示す。
温度は有効サンプルサイズの役割を模倣し、増強によって提供される情報の利得を反映している。
論文 参考訳(メタデータ) (2022-05-27T11:06:56Z) - Focal and Efficient IOU Loss for Accurate Bounding Box Regression [63.14659624634066]
オブジェクト検出では、境界ボックス回帰(BBR)はオブジェクトローカリゼーションのパフォーマンスを決定する重要なステップです。
i) $ell_n$-norm と IOU ベースのロス関数はどちらも BBR の目的を描くのに非効率的であり、これは遅い収束と不正確な回帰結果をもたらす。
論文 参考訳(メタデータ) (2021-01-20T14:33:58Z) - Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts
Generalization [111.57403811375484]
学習開始当初から,勾配降下がフィッシャー情報マトリックスの痕跡を暗黙的にペナルティ化することを示す。
暗黙的あるいは明示的な正規化がない場合、FIMの痕跡は訓練の早い段階で大きな値に増加する可能性があることを強調する。
論文 参考訳(メタデータ) (2020-12-28T11:17:46Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。