論文の概要: Deforming the Loss Surface
- arxiv url: http://arxiv.org/abs/2007.12515v2
- Date: Mon, 14 Sep 2020 02:15:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 05:47:25.721909
- Title: Deforming the Loss Surface
- Title(参考訳): 損失面を変形させる
- Authors: Liangming Chen, Long Jin, Xiujuan Du, Shuai Li, and Mei Liu
- Abstract要約: 本論文では、損失面を変形させ、最適化を改善するために、変形演算子という新しい概念を最初に提案する。
各種変形関数を設計し、損失面への寄与をさらに与える。
CIFAR-100で検証された変形関数を利用して,変形関数によって得られた臨界点付近の損失景観の可視化を行う。
- 参考スコア(独自算出の注目度): 12.18620042986296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In deep learning, it is usually assumed that the shape of the loss surface is
fixed. Differently, a novel concept of deformation operator is first proposed
in this paper to deform the loss surface, thereby improving the optimization.
Deformation function, as a type of deformation operator, can improve the
generalization performance. Moreover, various deformation functions are
designed, and their contributions to the loss surface are further provided.
Then, the original stochastic gradient descent optimizer is theoretically
proved to be a flat minima filter that owns the talent to filter out the sharp
minima. Furthermore, the flatter minima could be obtained by exploiting the
proposed deformation functions, which is verified on CIFAR-100, with
visualizations of loss landscapes near the critical points obtained by both the
original optimizer and optimizer enhanced by deformation functions. The
experimental results show that deformation functions do find flatter regions.
Moreover, on ImageNet, CIFAR-10, and CIFAR-100, popular convolutional neural
networks enhanced by deformation functions are compared with the corresponding
original models, where significant improvements are observed on all of the
involved models equipped with deformation functions. For example, the top-1
test accuracy of ResNet-20 on CIFAR-100 increases by 1.46%, with insignificant
additional computational overhead.
- Abstract(参考訳): 深層学習では、損失面の形状が固定されていると仮定されることが多い。
そこで,本論文では,新しい変形作用素の概念を最初に提案し,損失面を変形させ,最適化を改善する。
変形関数は変形演算子の一種であり、一般化性能を向上させることができる。
さらに、様々な変形関数をデザインし、損失面への寄与を更に提供する。
そして、元の確率勾配降下最適化器は、シャープなミニマをフィルタリングする才能を持つフラットなミニマフィルタであることが理論的に証明される。
さらに, 提案する変形関数をcifar-100で検証し, 元のオプティマイザとオプティマイザの双方で得られた臨界点付近の損失景観を可視化することにより, フラットターミニマを得ることができた。
実験の結果, 変形関数はより平坦な領域を見出すことがわかった。
さらに、ImageNet、CIFAR-10、CIFAR-100では、変形関数によって強化された一般的な畳み込みニューラルネットワークを対応する原モデルと比較し、変形関数を備えたすべてのモデルで顕著な改善が見られた。
例えば、CIFAR-100上のResNet-20のトップ-1テスト精度は1.46%向上し、計算オーバーヘッドは著しく増加した。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Next Generation Loss Function for Image Classification [0.0]
我々は、遺伝的プログラミング(GP)アプローチを利用して、クロスエントロピー(CE)損失を含むよく知られた損失関数に挑戦する。
NGL(Next Generation Loss)と呼ばれる1つの関数は、テストされたすべてのデータセットで、同じか、より優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-04-19T15:26:36Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - PoF: Post-Training of Feature Extractor for Improving Generalization [15.27255942938806]
我々は、既に訓練済みの深層モデルの特徴抽出器部分を更新して、より平坦な最小限の探索を行う訓練アルゴリズムを開発した。
実験結果から,PoFはベースライン法に対してモデル性能を改善した。
論文 参考訳(メタデータ) (2022-07-05T07:16:59Z) - Uncovering the Over-smoothing Challenge in Image Super-Resolution: Entropy-based Quantification and Contrastive Optimization [67.99082021804145]
我々はDetail Enhanced Contrastive Loss (DECLoss)と呼ばれるCOO問題に対する明確な解決策を提案する。
DECLossはコントラスト学習のクラスタリング特性を利用して、潜在的な高分解能分布の分散を直接的に低減する。
我々は複数の超高解像度ベンチマーク上でDECLosを評価し,PSNR指向モデルの知覚品質を向上させることを実証した。
論文 参考訳(メタデータ) (2022-01-04T08:30:09Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Deforming the Loss Surface to Affect the Behaviour of the Optimizer [13.073915827194853]
ディープラーニングでは、通常、形状固定された損失面上で最適化プロセスが実行されると仮定される。
本稿では,変形マッピングの新たな概念を提案する。
垂直変形マッピング(VDM)は、勾配勾配勾配が平坦な領域に入る際に、鋭いミニマをフィルタリングする能力を与える。
我々は、VDMによって強化された一般的な畳み込みニューラルネットワークと、ImageNet、CIFAR-10、CIFAR-100の対応するオリジナルニューラルネットワークを比較した。
論文 参考訳(メタデータ) (2020-09-14T06:43:16Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - On the Generalization Effects of Linear Transformations in Data
Augmentation [32.01435459892255]
データ拡張は、画像やテキストの分類タスクのようなアプリケーションのパフォーマンスを改善するための強力な技術である。
我々は線形変換の族を研究し、過度にパラメータ化された線形回帰設定におけるリッジ推定器への影響について研究する。
本稿では,モデルが変換データに対してどの程度不確実であるかによって,変換空間を探索する拡張手法を提案する。
論文 参考訳(メタデータ) (2020-05-02T04:10:21Z) - BReG-NeXt: Facial Affect Computing Using Adaptive Residual Networks With
Bounded Gradient [4.41738804598711]
本稿では,単純なショートカットパスの代わりに関数wtih境界微分を用いた残差ベースネットワークアーキテクチャであるBReG-NeXtを紹介する。
ResNetと比較して、我々の提案した適応的複素写像は、訓練パラメータの少ない浅いネットワークと1秒あたりの浮動小数点演算(FLOP)で得られる。
我々は,AffectNet,FER2013,Affect-in-Wildの難易度データベースに影響を及ぼすカテゴリモデルと次元モデルに関する総合的な実験を行った。
論文 参考訳(メタデータ) (2020-04-18T00:26:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。