論文の概要: Facilitate the Parametric Dimension Reduction by Gradient Clipping
- arxiv url: http://arxiv.org/abs/2009.14373v1
- Date: Wed, 30 Sep 2020 01:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 22:32:59.837712
- Title: Facilitate the Parametric Dimension Reduction by Gradient Clipping
- Title(参考訳): 傾斜クリッピングによるパラメトリック次元低減の促進
- Authors: Chien-Hsun Lai, Yu-Shuen Wang
- Abstract要約: 我々は、ニューラルネットワークのトレーニングにより、非パラメトリックからパラメトリックへ、よく知られた次元削減手法であるt分散隣接埋め込み(t-SNE)を拡張した。
本手法は, 一般化を楽しみながら, 非パラメトリックt-SNEと互換性のある埋め込み品質を実現する。
- 参考スコア(独自算出の注目度): 1.9671123873378715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We extend a well-known dimension reduction method, t-distributed stochastic
neighbor embedding (t-SNE), from non-parametric to parametric by training
neural networks. The main advantage of a parametric technique is the
generalization of handling new data, which is particularly beneficial for
streaming data exploration. However, training a neural network to optimize the
t-SNE objective function frequently fails. Previous methods overcome this
problem by pre-training and then fine-tuning the network. We found that the
training failure comes from the gradient exploding problem, which occurs when
data points distant in high-dimensional space are projected to nearby embedding
positions. Accordingly, we applied the gradient clipping method to solve the
problem. Since the networks are trained by directly optimizing the t-SNE
objective function, our method achieves an embedding quality that is compatible
with the non-parametric t-SNE while enjoying the ability of generalization. Due
to mini-batch network training, our parametric dimension reduction method is
highly efficient. We further extended other non-parametric state-of-the-art
approaches, such as LargeVis and UMAP, to the parametric versions. Experiment
results demonstrate the feasibility of our method. Considering its
practicability, we will soon release the codes for public use.
- Abstract(参考訳): ニューラルネットの訓練により,よく知られた次元縮小法であるt-distributed stochastic neighbor embedded (t-sne) を非パラメトリックからパラメトリックへと拡張する。
パラメトリック技術の主な利点は、特にストリーミングデータ探索において有益である、新しいデータを扱う一般化である。
しかし、t-SNE目的関数を最適化するためにニューラルネットワークをトレーニングすることは頻繁に失敗する。
以前の方法は、事前トレーニングとネットワークの微調整によってこの問題を克服した。
トレーニング失敗は,高次元空間におけるデータポイントを近傍の埋め込み位置に投影した場合に発生する勾配爆発問題から生じる。
そこで本研究では,勾配クリッピング法を適用した。
ネットワークは,t-SNEの目的関数を直接最適化することによって訓練されるので,一般化を楽しみながら,非パラメトリックt-SNEと互換性のある埋め込み品質を実現する。
ミニバッチネットワークトレーニングにより,パラメトリック次元低減手法は非常に効率的である。
我々はさらに、LargeVisやUMAPといった非パラメトリックな最先端アプローチをパラメトリック版に拡張した。
実験の結果,本手法の有効性が示された。
その実践性を考えると、まもなく公開コードをリリースします。
関連論文リスト
- Unified Gradient-Based Machine Unlearning with Remain Geometry Enhancement [29.675650285351768]
深層ニューラルネットワークのプライバシーと信頼性を高めるために、機械学習(MU)が登場した。
近似MUは大規模モデルの実用的手法である。
本稿では,最新の学習方向を暗黙的に近似する高速スローパラメータ更新手法を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:17:33Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Efficient Parametric Approximations of Neural Network Function Space
Distance [6.117371161379209]
モデルパラメータとトレーニングデータの重要な特性をコンパクトに要約して、データセット全体を保存または/または反復することなく後で使用できるようにすることが、しばしば有用である。
我々は,FSD(Function Space Distance)をトレーニングセット上で推定することを検討する。
本稿では、線形化活性化TRick (LAFTR) を提案し、ReLUニューラルネットワークに対するFSDの効率的な近似を導出する。
論文 参考訳(メタデータ) (2023-02-07T15:09:23Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent
Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。
我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。
本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文 参考訳(メタデータ) (2022-07-13T16:58:22Z) - Penalizing Gradient Norm for Efficiently Improving Generalization in
Deep Learning [13.937644559223548]
ディープニューラルネットワーク(DNN)をうまく一般化するためのトレーニング方法が、ディープラーニングの中心的な関心事である。
最適化時の損失関数の勾配ノルムをペナルティ化することにより,モデル一般化を効果的に向上する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:03:45Z) - Research of Damped Newton Stochastic Gradient Descent Method for Neural
Network Training [6.231508838034926]
勾配降下(SGD)のような一階法は、最近ディープニューラルネットワーク(DNN)を訓練するための一般的な最適化方法です。
本稿では、平均二乗誤差(MSE)の回帰問題とクロスエントロピー損失(CEL)の分類問題に対するDNNの訓練方法として、DN-SGD(Damped Newton Descent)とGGD-DN(Gradient Descent Damped Newton)を提案する。
提案手法はパラメータのごく一部を正確に計算し,計算コストを大幅に削減し,sgdよりも高速かつ高精度な学習プロセスを実現する。
論文 参考訳(メタデータ) (2021-03-31T02:07:18Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。