論文の概要: Mind the Gap: Removing the Discretization Gap in Differentiable Logic Gate Networks
- arxiv url: http://arxiv.org/abs/2506.07500v1
- Date: Mon, 09 Jun 2025 07:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.846592
- Title: Mind the Gap: Removing the Discretization Gap in Differentiable Logic Gate Networks
- Title(参考訳): Mind the Gap: 微分ゲートネットワークにおける離散化ギャップの除去
- Authors: Shakir Yousefi, Andreas Plesner, Till Aczel, Roger Wattenhofer,
- Abstract要約: ウォールタイムでネットワークを4.5倍速くトレーニングし、差別化のギャップを98%削減し、未使用のゲートの数を100%削減します。
この結果は、LGNの収束特性を改善する暗黙のヘッセン正則化によるものである。
ウォールタイムでネットワークを4.5倍速くトレーニングし、差別化のギャップを98%削減し、未使用のゲートの数を100%削減します。
- 参考スコア(独自算出の注目度): 18.95453617434051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern neural networks demonstrate state-of-the-art performance on numerous existing benchmarks; however, their high computational requirements and energy consumption prompt researchers to seek more efficient solutions for real-world deployment. Logic gate networks (LGNs) learns a large network of logic gates for efficient image classification. However, learning a network that can solve a simple problem like CIFAR-10 can take days to weeks to train. Even then, almost half of the network remains unused, causing a discretization gap. This discretization gap hinders real-world deployment of LGNs, as the performance drop between training and inference negatively impacts accuracy. We inject Gumbel noise with a straight-through estimator during training to significantly speed up training, improve neuron utilization, and decrease the discretization gap. We theoretically show that this results from implicit Hessian regularization, which improves the convergence properties of LGNs. We train networks $4.5 \times$ faster in wall-clock time, reduce the discretization gap by $98\%$, and reduce the number of unused gates by $100\%$.
- Abstract(参考訳): 現代のニューラルネットワークは、多数の既存のベンチマークで最先端のパフォーマンスを示すが、その高い計算要求とエネルギー消費により、研究者は現実世界の展開に対してより効率的なソリューションを求めることができる。
論理ゲートネットワーク(LGN)は、効率的な画像分類のための論理ゲートの大規模なネットワークを学習する。
しかし、CIFAR-10のような単純な問題を解決するネットワークを学ぶには、トレーニングに数日から数週間かかる可能性がある。
それでも、ネットワークの半分近くは使われていないため、差別化のギャップが生じる。
この離散化ギャップは、トレーニングと推論のパフォーマンス低下が精度に悪影響を及ぼすため、LGNの実際の展開を妨げる。
トレーニング中にGumbelノイズをストレートスルー推定器で注入し,トレーニングの大幅な高速化,ニューロン利用の向上,識別ギャップの低減を実現した。
理論的には、これはLGNの収束特性を改善する暗黙のヘッセン正則化の結果である。
私たちは、ウォールクロック時間で4.5 \times$をトレーニングし、離散化ギャップを9,8\%$に減らし、未使用のゲートの数を100\%$に減らします。
関連論文リスト
- Data-Free Dynamic Compression of CNNs for Tractable Efficiency [46.498278084317704]
構造化プルーニング手法は, 精度が大幅に低下することなく浮動小数点演算を低下させる可能性を示唆している。
HASTE(Hashing for Tractable Efficiency)は,データフリーでプラグイン・アンド・プレイのコンボリューションモジュールで,トレーニングや微調整なしにネットワークのテスト時間推論コストを瞬時に低減する。
CIFAR-10とImageNetでは46.72%のFLOPを1.25%の精度で削減した。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。
畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文 参考訳(メタデータ) (2023-06-14T01:24:42Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Learn Locally, Correct Globally: A Distributed Algorithm for Training
Graph Neural Networks [22.728439336309858]
通信効率の良い分散GNNトレーニング手法であるtextLearn Locally, Correct Globally$ (LLCG)を提案する。
LLCGは、異なるマシン間のノード間の依存関係を無視してGNNをローカルデータでトレーニングし、その後、定期的なモデル平均化のためにローカルにトレーニングされたモデルをサーバに送信する。
我々は,GNNを訓練するための周期モデル平均化による分散手法の収束度を厳密に分析し,周期モデル平均化を適用するが,ノード間の依存性を無視することは既約残差に悩まされることを示す。
論文 参考訳(メタデータ) (2021-11-16T03:07:01Z) - GDP: Stabilized Neural Network Pruning via Gates with Differentiable
Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。
GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。
CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2021-09-06T03:17:10Z) - Selfish Sparse RNN Training [13.165729746380816]
本稿では,1回のランでパラメータ数を固定したスパースRNNを,性能を損なうことなく訓練する手法を提案する。
我々はPenn TreeBankとWikitext-2の様々なデータセットを用いて最先端のスパーストレーニング結果を得る。
論文 参考訳(メタデータ) (2021-01-22T10:45:40Z) - ZORB: A Derivative-Free Backpropagation Algorithm for Neural Networks [3.6562366216810447]
我々は、ZORB(Zeroth-Order Relaxed Backpropagation)と呼ばれる、単純だが高速なトレーニングアルゴリズムを提案する。
勾配を計算する代わりに、ZORBは情報をバックプロパゲートするためにターゲットの擬似逆数を使用する。
標準分類と回帰ベンチマークの実験は、グラディエントDescentによる従来のバックプロパゲーションに対するZORBの優位性を示している。
論文 参考訳(メタデータ) (2020-11-17T19:29:47Z) - Pruning Convolutional Filters using Batch Bridgeout [14.677724755838556]
最先端のコンピュータビジョンモデルでは、トレーニングセットに適合するために必要なパラメータ数がはるかに多いため、能力が急速に向上している。
これにより最適化と一般化性能が向上する。
推論コストを削減するために、トレーニングされたニューラルネットワークの畳み込みフィルタを切断することで、推論中の実行時のメモリと計算要求を削減できる。
本稿では,ニューラルネットワークの性能低下を最小限に抑え,効率よく刈り取ることができるようにトレーニングするために,スパシティ誘導正規化スキームであるBatch Bridgeoutを提案する。
論文 参考訳(メタデータ) (2020-09-23T01:51:47Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。