論文の概要: 0/1 Deep Neural Networks via Block Coordinate Descent
- arxiv url: http://arxiv.org/abs/2206.09379v2
- Date: Thu, 31 Aug 2023 12:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 21:29:39.000013
- Title: 0/1 Deep Neural Networks via Block Coordinate Descent
- Title(参考訳): 0/1 ブロック座標降下によるディープニューラルネットワーク
- Authors: Hui Zhang, Shenglong Zhou, Geoffrey Ye Li, Naihua Xiu
- Abstract要約: ステップ関数は、ディープニューラルネットワーク(DNN)における最も単純かつ最も自然な活性化関数の1つである
正の変数は 1 で、他の変数は 0 であるので、本質的な特性(例えば、不連続性や下位段階の情報がないなど)は数十年にわたってその発展を妨げる。
- 参考スコア(独自算出の注目度): 40.11141921215105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The step function is one of the simplest and most natural activation
functions for deep neural networks (DNNs). As it counts 1 for positive
variables and 0 for others, its intrinsic characteristics (e.g., discontinuity
and no viable information of subgradients) impede its development for several
decades. Even if there is an impressive body of work on designing DNNs with
continuous activation functions that can be deemed as surrogates of the step
function, it is still in the possession of some advantageous properties, such
as complete robustness to outliers and being capable of attaining the best
learning-theoretic guarantee of predictive accuracy. Hence, in this paper, we
aim to train DNNs with the step function used as an activation function (dubbed
as 0/1 DNNs). We first reformulate 0/1 DNNs as an unconstrained optimization
problem and then solve it by a block coordinate descend (BCD) method. Moreover,
we acquire closed-form solutions for sub-problems of BCD as well as its
convergence properties. Furthermore, we also integrate
$\ell_{2,0}$-regularization into 0/1 DNN to accelerate the training process and
compress the network scale. As a result, the proposed algorithm has a high
performance on classifying MNIST and Fashion-MNIST datasets. As a result, the
proposed algorithm has a desirable performance on classifying MNIST,
FashionMNIST, Cifar10, and Cifar100 datasets.
- Abstract(参考訳): ステップ関数は、ディープニューラルネットワーク(DNN)の最も単純かつ最も自然なアクティベーション関数の1つである。
正の変数は 1 で、他の変数は 0 なので、本質的な特性(例えば、不連続性や下位段階の情報がないなど)は数十年にわたってその発展を妨げる。
ステップ関数のサロゲートと見なされる連続活性化関数を持つDNNを設計する際、驚くべき仕事の本体があるとしても、アウトレーヤに対する完全堅牢性や、予測精度の最良の学習理論的保証を達成できるなど、いくつかの有利な特性を持っている。
そこで本研究では,ステップ関数をアクティベーション関数 (0/1 DNN) として使用するDNNの訓練を目的とした。
まず,制約のない最適化問題として0/1 DNNを再構成し,ブロック座標降下法(BCD)により解いた。
さらに,BCDのサブプロブレムおよび収束特性に対する閉形式解を得る。
さらに,$\ell_{2,0}$-regularizationを0/1 dnnに統合し,トレーニングプロセスを高速化し,ネットワーク規模を圧縮した。
その結果,提案アルゴリズムはMNISTデータセットとFashion-MNISTデータセットの分類において高い性能を示した。
その結果,提案アルゴリズムは,MNIST,FashionMNIST,Cifar10,Cifar100データセットの分類に望ましい性能を示した。
関連論文リスト
- OPAF: Optimized Secure Two-Party Computation Protocols for Nonlinear Activation Functions in Recurrent Neural Network [8.825150825838769]
本稿では,二者間設定の半正直モデルにおける非線形関数の実装について,特に注目する。
そこで本研究では,分割・対数戦略を用いた指数関数の新しい,効率的なプロトコルを提案する。
次に,Sigmoid と Tanh の対称性を利用し,入力を微調整して2PC 構築ブロックを小さくする。
論文 参考訳(メタデータ) (2024-03-01T02:49:40Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - Graph-adaptive Rectified Linear Unit for Graph Neural Networks [64.92221119723048]
グラフニューラルネットワーク(GNN)は、従来の畳み込みを非ユークリッドデータでの学習に拡張することで、目覚ましい成功を収めた。
本稿では,周辺情報を利用した新しいパラメトリックアクティベーション機能であるグラフ適応整流線形ユニット(GRELU)を提案する。
我々は,GNNのバックボーンと様々な下流タスクによって,プラグアンドプレイGRELU法が効率的かつ効果的であることを示す包括的実験を行った。
論文 参考訳(メタデータ) (2022-02-13T10:54:59Z) - Convergence proof for stochastic gradient descent in the training of
deep neural networks with ReLU activation for constant target functions [1.7149364927872015]
勾配降下(SGD)型最適化法はディープニューラルネットワーク(DNN)の訓練において非常に効果的に機能する
本研究では,修正線形単位(ReLU)アクティベーションを備えた完全連結フィードフォワードDNNのトレーニングにおけるSGD型最適化手法について検討する。
論文 参考訳(メタデータ) (2021-12-13T11:45:36Z) - Dynamic Binary Neural Network by learning channel-wise thresholds [9.432747511001246]
信号関数の動的学習可能なチャンネルワイドしきい値とPRELUのシフトパラメータを組み込んだ動的BNN(DyBNN)を提案する。
DyBNNはReActNetの2つのバックボーン(MobileNetV1とResNet18)に基づいており、ImageNetデータセット上で71.2%と67.4%のトップ1精度を達成した。
論文 参考訳(メタデータ) (2021-10-08T17:41:36Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - An Integer Programming Approach to Deep Neural Networks with Binary
Activation Functions [0.0]
バイナリアクティベーション機能を持つディープニューラルネットワーク(BDNN)について検討する。
BDNNは,古典的プログラム解法により大域的最適性に解決可能な混合整数線形プログラムとして再構成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-07T10:28:20Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。