論文の概要: PoF: Post-Training of Feature Extractor for Improving Generalization
- arxiv url: http://arxiv.org/abs/2207.01847v1
- Date: Tue, 5 Jul 2022 07:16:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 15:28:31.446394
- Title: PoF: Post-Training of Feature Extractor for Improving Generalization
- Title(参考訳): PoF: 一般化のための機能エクストラクタの訓練後
- Authors: Ikuro Sato, Ryota Yamada, Masayuki Tanaka, Nakamasa Inoue, Rei
Kawakami
- Abstract要約: 我々は、既に訓練済みの深層モデルの特徴抽出器部分を更新して、より平坦な最小限の探索を行う訓練アルゴリズムを開発した。
実験結果から,PoFはベースライン法に対してモデル性能を改善した。
- 参考スコア(独自算出の注目度): 15.27255942938806
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It has been intensively investigated that the local shape, especially
flatness, of the loss landscape near a minimum plays an important role for
generalization of deep models. We developed a training algorithm called PoF:
Post-Training of Feature Extractor that updates the feature extractor part of
an already-trained deep model to search a flatter minimum. The characteristics
are two-fold: 1) Feature extractor is trained under parameter perturbations in
the higher-layer parameter space, based on observations that suggest flattening
higher-layer parameter space, and 2) the perturbation range is determined in a
data-driven manner aiming to reduce a part of test loss caused by the positive
loss curvature. We provide a theoretical analysis that shows the proposed
algorithm implicitly reduces the target Hessian components as well as the loss.
Experimental results show that PoF improved model performance against baseline
methods on both CIFAR-10 and CIFAR-100 datasets for only 10-epoch
post-training, and on SVHN dataset for 50-epoch post-training. Source code is
available at: \url{https://github.com/DensoITLab/PoF-v1
- Abstract(参考訳): 極小付近の損失景観の局所的形状、特に平坦性が深層モデルの一般化に重要な役割を果たすことが集中的に研究されている。
我々は、既に訓練済みの深層モデルの特徴抽出部を更新して、より平坦な最小値を求める、PoF: Post-Training of Feature Extractorと呼ばれるトレーニングアルゴリズムを開発した。
特徴は2つある。
1)高層パラメータ空間のパラメータ摂動の下で,高層パラメータ空間の平坦化を示唆する観測に基づいて特徴抽出器を訓練する。
2) 摂動範囲は, 正の損失曲率によるテスト損失の一部を減少させる目的で, データ駆動方式で決定される。
本稿では,提案アルゴリズムがターゲットヘッセン成分と損失を暗黙的に低減することを示す理論的解析を行う。
実験の結果、pofは10時間後トレーニングでcifar-10とcifar-100の両方のベースライン法と50時間後トレーニングでsvhnデータセットの両方でモデル性能を改善した。
ソースコードは以下の通り。 \url{https://github.com/DensoITLab/PoF-v1
関連論文リスト
- Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning [49.91297276176978]
私たちは小説を提案します。
ポイントGST (Point GST) と呼ばれる点雲の効率的な微細調整法。
ポイントGSTは事前トレーニングされたモデルを凍結し、スペクトル領域のパラメータを微調整するためのトレーニング可能なポイントクラウドスペクトルアダプタ(PCSA)を導入する。
挑戦的なポイントクラウドデータセットに関する大規模な実験は、ポイントGSTが完全に微調整されたデータセットを上回るだけでなく、トレーニング可能なパラメータを大幅に削減することを示した。
論文 参考訳(メタデータ) (2024-10-10T17:00:04Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Gradient Boosting Mapping for Dimensionality Reduction and Feature Extraction [2.778647101651566]
教師あり学習における根本的な問題は、優れた特徴や距離尺度を見つけることである。
本稿では,弱い学習者の出力が埋め込みを定義する,教師付き次元削減手法を提案する。
組込み座標は教師付き学習タスクにより良い機能を提供することを示す。
論文 参考訳(メタデータ) (2024-05-14T10:23:57Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。
In-Training Representation Alignment (ITRA) を提案する。
また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文 参考訳(メタデータ) (2022-11-23T22:23:22Z) - Towards Sparsification of Graph Neural Networks [9.568566305616656]
我々は2つの最先端モデル圧縮手法を用いて、GNNにおける重み付け層の分散化を訓練・訓練し、スパーストレーニングを行う。
実世界のグラフ上で,両手法の精度,訓練空間性,および FLOP の学習効率を評価し,比較する。
論文 参考訳(メタデータ) (2022-09-11T01:39:29Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Structured Directional Pruning via Perturbation Orthogonal Projection [13.704348351073147]
より合理的なアプローチは、NISTによって発見された平坦な最小の谷に沿ってスパース最小化器を見つけることである。
平坦な最小の谷に摂動を投射する構造的指向性プルーニングを提案する。
実験の結果,VGG16では93.97%,CIFAR-10タスクでは再トレーニングを行なわず,最先端のプルーニング精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T11:35:47Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Improve SGD Training via Aligning Mini-batches [22.58823484394866]
In-Training Distribution Matching (ITDM) は、ディープニューラルネットワーク(DNN)のトレーニングを改善し、オーバーフィッティングを減らすために提案されている。
具体的には、SGDの各イテレーションにおいて、異なるミニバッチの分布のモーメントを一致させて特徴抽出器を正規化する。
論文 参考訳(メタデータ) (2020-02-23T15:10:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。