論文の概要: Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy
- arxiv url: http://arxiv.org/abs/2302.04369v1
- Date: Wed, 8 Feb 2023 23:23:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 17:14:46.484090
- Title: Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy
- Title(参考訳): 最大平均差による深部ニューラルネットワークの初期化の教師なし学習
- Authors: Cheolhyoung Lee, Kyunghyun Cho
- Abstract要約: 本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
- 参考スコア(独自算出の注目度): 74.34895342081407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent success of stochastic gradient descent in deep learning,
it is often difficult to train a deep neural network with an inappropriate
choice of its initial parameters. Even if training is successful, it has been
known that the initial parameter configuration may negatively impact
generalization. In this paper, we propose an unsupervised algorithm to find
good initialization for input data, given that a downstream task is d-way
classification. We first notice that each parameter configuration in the
parameter space corresponds to one particular downstream task of d-way
classification. We then conjecture that the success of learning is directly
related to how diverse downstream tasks are in the vicinity of the initial
parameters. We thus design an algorithm that encourages small perturbation to
the initial parameter configuration leads to a diverse set of d-way
classification tasks. In other words, the proposed algorithm ensures a solution
to any downstream task to be near the initial parameter configuration. We
empirically evaluate the proposed algorithm on various tasks derived from MNIST
with a fully connected network. In these experiments, we observe that our
algorithm improves average test accuracy across most of these tasks, and that
such improvement is greater when the number of labelled examples is small.
- Abstract(参考訳): 深層学習における確率的勾配降下の成功にもかかわらず、初期パラメータの選択が不適切な深層ニューラルネットワークを訓練することはしばしば困難である。
トレーニングが成功したとしても、初期パラメータ構成が一般化に悪影響を及ぼすことが知られている。
本稿では,ダウンストリームタスクがd-way分類であることを考えると,入力データの適切な初期化を求めるための教師なしアルゴリズムを提案する。
まずパラメータ空間の各パラメータ構成がd-way分類の特定の下流タスクに対応していることに注意する。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
そこで我々は,初期パラメータ設定に対する小さな摂動を促すアルゴリズムを設計し,多種多様なd-way分類タスクを実現する。
言い換えれば、提案アルゴリズムにより、下流タスクに対する解が初期パラメータ設定に近いことが保証される。
完全に接続されたネットワークを持つMNISTから派生した様々なタスクに対して,提案アルゴリズムを実験的に評価する。
これらの実験において,本アルゴリズムは,これらのタスクのほとんどにおいて平均テスト精度が向上し,ラベル付きサンプルの数が小さい場合,その改善率が高くなることを確認した。
関連論文リスト
- Unrolled denoising networks provably learn optimal Bayesian inference [54.79172096306631]
我々は、近似メッセージパッシング(AMP)のアンロールに基づくニューラルネットワークの最初の厳密な学習保証を証明した。
圧縮センシングでは、製品から引き出されたデータに基づいてトレーニングを行うと、ネットワークの層がベイズAMPで使用されるのと同じデノイザーに収束することを示す。
論文 参考訳(メタデータ) (2024-09-19T17:56:16Z) - Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive
Least-Squares [8.443742714362521]
我々は,従来のデータポイントの予測にほとんど変化しない方向にパラメータを変更しながら,すべての新しいデータポイントに完全に適合するワンパス学習アルゴリズムを開発した。
我々のアルゴリズムは、インクリメンタル・プリンシパル・コンポーネント分析(IPCA)を用いてストリーミングデータの構造を利用して、メモリを効率的に利用する。
本実験では,提案手法の有効性をベースラインと比較した。
論文 参考訳(メタデータ) (2022-07-28T02:01:31Z) - Robust Learning of Parsimonious Deep Neural Networks [0.0]
本稿では,ニューラルネットワークにおける無関係構造を識別・排除できる同時学習および刈り取りアルゴリズムを提案する。
最適選択に欠かせないパラメータに対して,新しい超優先度分布を導出する。
我々は,提案アルゴリズムをMNISTデータセット上で評価し,完全連結型および畳み込み型LeNetアーキテクチャを用いた。
論文 参考訳(メタデータ) (2022-05-10T03:38:55Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Data-driven Weight Initialization with Sylvester Solvers [72.11163104763071]
本稿では,ディープニューラルネットワークのパラメータを初期化するためのデータ駆動方式を提案する。
提案手法は,特にショットや微調整の設定において有効であることを示す。
論文 参考訳(メタデータ) (2021-05-02T07:33:16Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z) - Resolving learning rates adaptively by locating Stochastic Non-Negative
Associated Gradient Projection Points using line searches [0.0]
ニューラルネットワークトレーニングにおける学習率は現在、高価なマニュアルや自動チューニングを使用したトレーニングの優先事項として決定されている。
本研究では,ニューラルネットワーク学習アルゴリズムの学習率を解くために,勾配のみの線探索を提案する。
論文 参考訳(メタデータ) (2020-01-15T03:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。