論文の概要: Align Forward, Adapt Backward: Closing the Discretization Gap in Logic Gate Networks
- arxiv url: http://arxiv.org/abs/2603.14157v1
- Date: Sat, 14 Mar 2026 23:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.640109
- Title: Align Forward, Adapt Backward: Closing the Discretization Gap in Logic Gate Networks
- Title(参考訳): Align Forward, Adapt Backward: Logic Gate Networksにおける離散化ギャップの閉鎖
- Authors: Youngsung Kim,
- Abstract要約: ニューラルネットワークモデルでは、固定された候補コンポーネント(ロジックゲートやサブネットワークなど)のソフトミックスが、安定した最適化のためのトレーニングにしばしば使用される。
適応性からフォワードパス構成(ハードセレクション対ソフトミックス)を分離することにより、このギャップを解析する(ガンベルノイズなしで)。
Gumbel-STはトレーニングが成功するとほぼゼロのギャップを達成できるが、低温では精度が低下する。
- 参考スコア(独自算出の注目度): 1.9459606412374644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In neural network models, soft mixtures of fixed candidate components (e.g., logic gates and sub-networks) are often used during training for stable optimization, while hard selection is typically used at inference. This raises questions about training-inference mismatch. We analyze this gap by separating forward-pass computation (hard selection vs. soft mixture) from stochasticity (with vs. without Gumbel noise). Using logic gate networks as a testbed, we observe distinct behaviors across four methods: Hard-ST achieves zero selection gap by construction; Gumbel-ST achieves near-zero gap when training succeeds but suffers accuracy collapse at low temperatures; Soft-Mix achieves small gap only at low temperature via weight concentration; and Soft-Gumbel exhibits large gaps despite Gumbel noise, confirming that noise alone does not reduce the gap. We propose CAGE (Confidence-Adaptive Gradient Estimation) to maintain gradient flow while preserving forward alignment. On logic gate networks, Hard-ST with CAGE achieves over 98% accuracy on MNIST and over 58% on CIFAR-10, both with zero selection gap across all temperatures, while Gumbel-ST without CAGE suffers a 47-point accuracy collapse.
- Abstract(参考訳): ニューラルネットワークモデルでは、固定候補コンポーネント(例えば、論理ゲートやサブネットワーク)のソフトミックスが、安定な最適化のためのトレーニングでしばしば使用されるが、ハードセレクションは推論で一般的に使用される。
これにより、トレーニングと推論のミスマッチに関する疑問が持ち上がる。
我々は,前方通過計算(ハードセレクション対ソフトミックス)と確率性(ガンベルノイズなしで)を分離することにより,このギャップを解析する。
Gumbel-STはトレーニングが成功したときにほぼゼロのギャップを達成できるが、低温では精度が低下する。Soft-Mixは重量集中によってのみ低温でのみ小さなギャップを達成し、Soft-GumbelはGumbelノイズにもかかわらず大きなギャップを示し、ノイズだけでギャップを減らさないことを確認する。
我々は,前方アライメントを維持しつつ勾配流を維持するために,CAGE(Confidence-Adaptive Gradient Estimation)を提案する。
論理ゲートネットワーク上では、CAGE付きHard-STはMNISTで98%以上、CIFAR-10では58%以上、CAGEのないGumbel-STは47ポイント以上の精度で崩壊する。
関連論文リスト
- Low-Rank Compression of Language Models via Differentiable Rank Selection [22.99526059495007]
本研究では,勾配に基づく学習手法であるLearning to Low-Rank Compress (LLRC)を提案する。
提案手法は, 圧縮後微調整を必要とせず, 様々な圧縮速度で, 共通センス推論やオープンドメイン質問応答タスクにおいて, 競合するランク付け手法よりも優れる。
論文 参考訳(メタデータ) (2025-12-14T07:20:57Z) - EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients [6.736735746633275]
拡散に基づく大規模言語モデル (dLLMs) は反復的妄想を通じてトークン生成を洗練させるが、全てのステップが完了する前に答えは安定することが多い。
本稿では,トレーニング時推論に対する十分な推論安定性が検出された場合に,適応的にデノイングを停止する推論時基準であるEDITを提案する。
論文 参考訳(メタデータ) (2025-11-29T23:47:47Z) - What Layers When: Learning to Skip Compute in LLMs with Residual Gates [66.23658560048241]
GateSkipは、デコーダのみのLMにおけるトークンワイド層スキップを可能にする残差ストリームゲーティング機構である。
各Attention/MLPブランチは、残ストリームに再入力する前に、ブランチの出力を凝縮するシグモイドリニアゲートを備えている。
論文 参考訳(メタデータ) (2025-10-13T16:31:50Z) - Mind the Gap: Removing the Discretization Gap in Differentiable Logic Gate Networks [28.844098517315228]
ウォールタイムでネットワークを4.5倍速くトレーニングし、差別化のギャップを98%削減し、未使用のゲートの数を100%削減します。
この結果は、LGNの収束特性を改善する暗黙のヘッセン正則化によるものである。
ウォールタイムでネットワークを4.5倍速くトレーニングし、差別化のギャップを98%削減し、未使用のゲートの数を100%削減します。
論文 参考訳(メタデータ) (2025-06-09T07:25:51Z) - GDP: Stabilized Neural Network Pruning via Gates with Differentiable
Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。
GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。
CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2021-09-06T03:17:10Z) - GOALS: Gradient-Only Approximations for Line Searches Towards Robust and
Consistent Training of Deep Neural Networks [0.0]
ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。
最適性基準が定義された強い収束特性を持つ勾配限定近似線探索(GOALS)を提案する。
論文 参考訳(メタデータ) (2021-05-23T11:21:01Z) - Self Sparse Generative Adversarial Networks [73.590634413751]
GAN(Generative Adversarial Networks)は、敵対的トレーニングを通じてデータ分布を学習する監視されていない生成モデルである。
本論文では,パラメータ空間を小さくし,ゼロ勾配問題を軽減するSelf Sparse Generative Adversarial Network (Self-Sparse GAN)を提案する。
論文 参考訳(メタデータ) (2021-01-26T04:49:12Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。