論文の概要: Data-driven Weight Initialization with Sylvester Solvers
- arxiv url: http://arxiv.org/abs/2105.10335v1
- Date: Sun, 2 May 2021 07:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-29 20:57:36.218927
- Title: Data-driven Weight Initialization with Sylvester Solvers
- Title(参考訳): シルベスターソルバを用いたデータ駆動重み初期化
- Authors: Debasmit Das, Yash Bhalgat and Fatih Porikli
- Abstract要約: 本稿では,ディープニューラルネットワークのパラメータを初期化するためのデータ駆動方式を提案する。
提案手法は,特にショットや微調整の設定において有効であることを示す。
- 参考スコア(独自算出の注目度): 72.11163104763071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a data-driven scheme to initialize the parameters of
a deep neural network. This is in contrast to traditional approaches which
randomly initialize parameters by sampling from transformed standard
distributions. Such methods do not use the training data to produce a more
informed initialization. Our method uses a sequential layer-wise approach where
each layer is initialized using its input activations. The initialization is
cast as an optimization problem where we minimize a combination of encoding and
decoding losses of the input activations, which is further constrained by a
user-defined latent code. The optimization problem is then restructured into
the well-known Sylvester equation, which has fast and efficient gradient-free
solutions. Our data-driven method achieves a boost in performance compared to
random initialization methods, both before start of training and after training
is over. We show that our proposed method is especially effective in few-shot
and fine-tuning settings. We conclude this paper with analyses on time
complexity and the effect of different latent codes on the recognition
performance.
- Abstract(参考訳): 本研究では,ディープニューラルネットワークのパラメータを初期化するためのデータ駆動方式を提案する。
これは、変換された標準分布からサンプリングすることでパラメータをランダムに初期化する従来のアプローチとは対照的である。
このような方法は、トレーニングデータを使用して、より情報のある初期化を生成しない。
本手法では,各層が入力アクティベーションを用いて初期化される逐次的層分割アプローチを用いる。
初期化は、ユーザ定義の潜時符号によりさらに制約される入力アクティベーションの符号化と復号化の損失を最小化する最適化問題である。
最適化問題はよく知られたシルベスター方程式に再構成され、高速で効率的な勾配なし解を持つ。
データ駆動方式は,訓練開始前と訓練終了後の両方において,ランダム初期化法と比較して性能が向上する。
提案手法は,特にショットや微調整の設定において有効であることを示す。
本稿では,時間複雑性と異なる潜在符号が認識性能に与える影響について解析を行った。
関連論文リスト
- Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization [49.06421851486415]
静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。
ランダムなアジェンダ回転に基づく新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。
本手法は,残差接続や正規化を伴わずに,1000層ネットワークとCNNネットワークを疎結合に訓練することができる。
論文 参考訳(メタデータ) (2024-06-03T19:44:47Z) - Using linear initialisation to improve speed of convergence and
fully-trained error in Autoencoders [0.0]
そこで我々はStraddled Matrix Initialiserと呼ばれる新しいウェイト初期化手法を導入する。
階層行列とReLU活性化関数の組み合わせは、ニューラルネットワークをデファクト線形モデルとして初期化する。
全ての実験において、Straddeled Matrix Initialiserは、他のすべての方法よりも明らかに優れています。
論文 参考訳(メタデータ) (2023-11-17T18:43:32Z) - Taking the human out of decomposition-based optimization via artificial
intelligence: Part II. Learning to initialize [0.0]
提案手法は解時間を大幅に短縮することができる。
アクティブかつ教師付き学習は、計算性能を予測する代理モデルを学ぶために使用される。
その結果,提案手法が解時間を大幅に短縮する可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-10T23:49:26Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Boosting Fast Adversarial Training with Learnable Adversarial
Initialization [79.90495058040537]
対人訓練(AT)は、対人訓練の例を活用することにより、モデルロバスト性を改善するのに有効であることが示されている。
トレーニング効率を向上させるため,高速AT法では1回だけ勾配を計算することにより高速勾配符号法(FGSM)が採用されている。
論文 参考訳(メタデータ) (2021-10-11T05:37:00Z) - A novel initialisation based on hospital-resident assignment for the
k-modes algorithm [0.0]
本稿では,k-modesアルゴリズムの初期解を選択する新しい方法を提案する。
これは、数学的公正性の概念と、文献から共通の初期化ができないデータの活用を可能にする。
論文 参考訳(メタデータ) (2020-02-07T10:20:49Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。