論文の概要: A Mixed Integer Programming Approach to Training Dense Neural Networks
- arxiv url: http://arxiv.org/abs/2201.00723v1
- Date: Mon, 3 Jan 2022 15:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 15:31:22.099786
- Title: A Mixed Integer Programming Approach to Training Dense Neural Networks
- Title(参考訳): 混合整数プログラミングによる高密度ニューラルネットワークの学習
- Authors: Vrishabh Patil and Yonatan Mintz
- Abstract要約: 完全連結ANNの学習のための新しい混合整数プログラミング(MIP)法を提案する。
我々の定式化は、バイナリアクティベーションと修正線形ユニット(ReLU)アクティベーションANNの両方を考慮することができる。
また、モデル事前学習のために、ANNのレイヤー数を減少させる手法である層ワイドグリーディ手法を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Neural Networks (ANNs) are prevalent machine learning models that
have been applied across various real world classification tasks. ANNs require
a large amount of data to have strong out of sample performance, and many
algorithms for training ANN parameters are based on stochastic gradient descent
(SGD). However, the SGD ANNs that tend to perform best on prediction tasks are
trained in an end to end manner that requires a large number of model
parameters and random initialization. This means training ANNs is very time
consuming and the resulting models take a lot of memory to deploy. In order to
train more parsimonious ANN models, we propose the use of alternative methods
from the constrained optimization literature for ANN training and pretraining.
In particular, we propose novel mixed integer programming (MIP) formulations
for training fully-connected ANNs. Our formulations can account for both binary
activation and rectified linear unit (ReLU) activation ANNs, and for the use of
a log likelihood loss. We also develop a layer-wise greedy approach, a
technique adapted for reducing the number of layers in the ANN, for model
pretraining using our MIP formulations. We then present numerical experiments
comparing our MIP based methods against existing SGD based approaches and show
that we are able to achieve models with competitive out of sample performance
that are significantly more parsimonious.
- Abstract(参考訳): ニューラルネットワーク(Artificial Neural Networks, ANN)は、さまざまな現実世界の分類タスクに適用される機械学習モデルである。
ANNはサンプル性能を強くするために大量のデータを必要とし、ANNパラメータをトレーニングするための多くのアルゴリズムは確率勾配勾配(SGD)に基づいている。
しかし、予測タスクにおいて最善を尽くす傾向にあるSGD ANNは、多数のモデルパラメータとランダム初期化を必要とするエンドツーエンドで訓練される。
これは、ANNのトレーニングに非常に時間がかかり、結果として生じるモデルはデプロイに多くのメモリを必要とすることを意味する。
より類似的なANNモデルをトレーニングするために、制約付き最適化文献からANNトレーニングと事前学習のための代替手法を提案する。
特に,完全連結ANNを学習するための新しい混合整数プログラミング(MIP)法を提案する。
提案手法は,二進活性化と整流線形単位 (relu) 活性化 ann の双方を考慮し,対数確率損失の利用を考慮できる。
また,mip 定式化を用いたモデル事前学習のために,ann のレイヤ数を削減する手法である layer-wise greedy アプローチも開発した。
次に,既存のSGD手法とMIPに基づく手法を比較した数値実験を行い,より類似性の高いサンプル性能の競争力のあるモデルを実現できることを示す。
関連論文リスト
- BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Large Deviations for Accelerating Neural Networks Training [5.864710987890994]
LAD改良反復訓練(LIIT)は,大規模な逸脱原理を用いたANNのための新しい訓練手法である。
LIITアプローチでは、LAD異常スコアに基づくサンプリング戦略を用いて、MTS(Modified Training Sample)を生成し、反復的に更新する。
MTSサンプルは、各クラスにおける観察のほとんどを異常に含めることで、トレーニングデータをうまく表現するように設計されている。
論文 参考訳(メタデータ) (2023-03-02T04:14:05Z) - Adversarial Learning Networks: Source-free Unsupervised Domain
Incremental Learning [0.0]
非定常環境では、DNNモデルの更新にはパラメータの再トレーニングやモデル微調整が必要である。
DNN分類モデルを更新するための教師なしソースフリー手法を提案する。
既存の手法とは異なり,本手法では過去のトレーニングデータを格納することなく,非定常的なソースとターゲットタスクに対して段階的にDNNモデルを更新することができる。
論文 参考訳(メタデータ) (2023-01-28T02:16:13Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Low-Resource Music Genre Classification with Cross-Modal Neural Model
Reprogramming [129.4950757742912]
ニューラルモデル再プログラミング(NMR)の概念に基づく低リソース(音楽)分類のための事前学習モデルを活用する新しい手法を提案する。
NMRは、凍結した事前学習モデルの入力を変更することにより、ソースドメインからターゲットドメインへの事前学習モデルの再取得を目指している。
実験結果から,大規模データセットに事前学習したニューラルモデルは,この再プログラミング手法を用いて,音楽ジャンルの分類に成功できることが示唆された。
論文 参考訳(メタデータ) (2022-11-02T17:38:33Z) - Statistical process monitoring of artificial neural networks [1.3213490507208525]
機械学習では、入力と出力の間の学習された関係は、モデルのデプロイの間も有効でなければならない。
本稿では,データストリームの非定常化開始時刻を決定するために,ANNが生成するデータ(埋め込み)の潜在的特徴表現について検討する。
論文 参考訳(メタデータ) (2022-09-15T16:33:36Z) - An alternative approach to train neural networks using monotone
variational inequality [22.320632565424745]
本稿では,モノトーンベクトル場を用いたニューラルネットワークトレーニングの代替手法を提案する。
我々のアプローチは、事前訓練されたニューラルネットワークのより効率的な微調整に利用できる。
論文 参考訳(メタデータ) (2022-02-17T19:24:20Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。