論文の概要: Leveraging Continuously Differentiable Activation Functions for Learning in Quantized Noisy Environments
- arxiv url: http://arxiv.org/abs/2402.02593v3
- Date: Mon, 24 Feb 2025 09:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:47:14.971711
- Title: Leveraging Continuously Differentiable Activation Functions for Learning in Quantized Noisy Environments
- Title(参考訳): 量子雑音環境下での学習のための連続微分可能活性化関数の活用
- Authors: Vivswan Shah, Nathan Youngblood,
- Abstract要約: 実世界のアナログシステムは本質的に、モデル収束と精度を妨げるノイズに悩まされる。
GELUやSiLUのような異なるアクティベーションは勾配の堅牢な伝播を可能にし、アナログ量子化誤差を緩和する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Real-world analog systems intrinsically suffer from noise that can impede model convergence and accuracy on a variety of deep learning models. We demonstrate that differentiable activations like GELU and SiLU enable robust propagation of gradients which help to mitigate analog quantization error that is ubiquitous to all analog systems. We perform analysis and training of convolutional, linear, and transformer networks in the presence of quantized noise. Here, we are able to demonstrate that continuously differentiable activation functions are significantly more noise resilient over conventional rectified activations. As in the case of ReLU, the error in gradients are 100x higher than those in GELU near zero. Our findings provide guidance for selecting appropriate activations to realize performant and reliable hardware implementations across several machine learning domains such as computer vision, signal processing, and beyond. Code available at: \href{https://github.com/Vivswan/GeLUReLUInterpolation}{https://github.com/Vivswan/GeLUReLUInterpolation}.}
- Abstract(参考訳): 実世界のアナログシステムは、様々なディープラーニングモデルにおけるモデル収束と精度を妨げるノイズに本質的に苦しむ。
GELU や SiLU のような微分可能なアクティベーションは勾配の頑健な伝播を可能にし、全てのアナログ系に広く分布するアナログ量子化誤差を緩和する。
我々は、量子化ノイズの存在下で、畳み込み、線形、および変圧器ネットワークの分析および訓練を行う。
ここでは、連続的な微分可能活性化関数が従来の修正活性化よりも耐雑音性が高いことを示すことができる。
ReLUの場合と同様に、勾配の誤差はゼロに近いGELUの誤差の100倍である。
本研究は,コンピュータビジョンや信号処理など,複数の機械学習領域にまたがる,高性能で信頼性の高いハードウェア実装を実現するために,適切なアクティベーションを選択するためのガイダンスを提供する。
コードは以下の通り。 \href{https://github.com/Vivswan/GeLUReLUInterpolation}{https://github.com/Vivswan/GeLUReLUInterpolation}。
※
関連論文リスト
- STAF: Sinusoidal Trainable Activation Functions for Implicit Neural Representation [7.2888019138115245]
Inlicit Neural Representations (INR) は、連続的な信号をモデリングするための強力なフレームワークとして登場した。
ReLUベースのネットワークのスペクトルバイアスは、十分に確立された制限であり、ターゲット信号の微細な詳細を捕捉する能力を制限する。
Sinusoidal Trainable Function Activation (STAF)について紹介する。
STAFは本質的に周波数成分を変調し、自己適応型スペクトル学習を可能にする。
論文 参考訳(メタデータ) (2025-02-02T18:29:33Z) - Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Activation function optimization method: Learnable series linear units (LSLUs) [12.089173508371246]
LSLU (Learnable Series Linear Units) と呼ばれる直列学習可能なac-tivation関数を提案する。
この方法は、精度を向上しつつ、ディープラーニングネットワークを単純化する。
CIFAR10, CIFAR100および特定のタスクデータセット(例えばSilkworm)上でのLSLUの性能を評価する。
論文 参考訳(メタデータ) (2024-08-28T11:12:27Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - A Framework for Provably Stable and Consistent Training of Deep
Feedforward Networks [4.21061712600981]
本稿では、教師付き(分類と回帰)および教師なし(強化学習)シナリオにおいて、ディープニューラルネットワークを訓練するための新しいアルゴリズムを提案する。
このアルゴリズムは、標準降下勾配と勾配クリッピング法を組み合わせたものである。
理論的および実験を通して、我々のアルゴリズム更新はばらつきが低く、トレーニング損失はスムーズな方法で減少することを示す。
論文 参考訳(メタデータ) (2023-05-20T07:18:06Z) - Degradation-Noise-Aware Deep Unfolding Transformer for Hyperspectral
Image Denoising [9.119226249676501]
ハイパースペクトル画像(HSI)は、帯域幅が狭いため、ノイズが多いことが多い。
HSIデータキューブのノイズを低減するため、モデル駆動型と学習型の両方の復調アルゴリズムが提案されている。
本稿では,これらの問題に対処するDNA-Net(Degradation-Noise-Aware Unfolding Network)を提案する。
論文 参考訳(メタデータ) (2023-05-06T13:28:20Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Behavioral Model Inference of Black-box Software using Deep Neural
Networks [1.6593369275241105]
テストや異常検出といった多くのソフトウェアエンジニアリングタスクは、ソフトウェアの振る舞いモデルを予測する能力の恩恵を受けることができる。
既存の推論アプローチのほとんどは、実行シーケンスを収集するコードへのアクセスを前提としている。
本稿では,この手法を用いて状態変化を正確に検出する方法と,推定されたモデルがトランスフォーメーション学習シナリオにどのように適用できるかを示す。
論文 参考訳(メタデータ) (2021-01-13T09:23:37Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Neural Control Variates [71.42768823631918]
ニューラルネットワークの集合が、積分のよい近似を見つけるという課題に直面していることを示す。
理論的に最適な分散最小化損失関数を導出し、実際に安定したオンライントレーニングを行うための代替の複合損失を提案する。
具体的には、学習した光場近似が高次バウンスに十分な品質であることを示し、誤差補正を省略し、無視可能な可視バイアスのコストでノイズを劇的に低減できることを示した。
論文 参考訳(メタデータ) (2020-06-02T11:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。