論文の概要: Stochastic activations
- arxiv url: http://arxiv.org/abs/2509.22358v1
- Date: Fri, 26 Sep 2025 13:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.47116
- Title: Stochastic activations
- Title(参考訳): 確率的活性化
- Authors: Maria Lomeli, Matthijs Douze, Gergely Szilvasy, Loic Cabannes, Jade Copet, Sainbayar Sukhbaatar, Jason Weston, Gabriel Synnaeve, Pierre-Emmanuel Mazaré, Hervé Jégou,
- Abstract要約: この戦略は、大規模言語モデルのフィードフォワード層における複数の非線形関数をランダムに選択する。
我々は,(1)事前学習中にアクティベーションを使用し,RELUを用いてモデルを微調整する。
この戦略は、温度スケーリングと組み合わせた最良の決定論的非線形性(SILU)よりもわずかに劣る。
- 参考スコア(独自算出の注目度): 53.40901433014535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce stochastic activations. This novel strategy randomly selects between several non-linear functions in the feed-forward layer of a large language model. In particular, we choose between SILU or RELU depending on a Bernoulli draw. This strategy circumvents the optimization problem associated with RELU, namely, the constant shape for negative inputs that prevents the gradient flow. We leverage this strategy in two ways: (1) We use stochastic activations during pre-training and fine-tune the model with RELU, which is used at inference time to provide sparse latent vectors. This reduces the inference FLOPs and translates into a significant speedup in the CPU. Interestingly, this leads to much better results than training from scratch with the RELU activation function. (2) We evaluate stochastic activations for generation. This strategy performs reasonably well: it is only slightly inferior to the best deterministic non-linearity, namely SILU combined with temperature scaling. This offers an alternative to existing strategies by providing a controlled way to increase the diversity of the generated text.
- Abstract(参考訳): 確率的アクティベーションを導入します。
この新しい戦略は、大規模言語モデルのフィードフォワード層における複数の非線形関数をランダムに選択する。
特に、ベルヌーイの引き数に応じてSILU または RELU を選択する。
この戦略は、RELUに関連する最適化問題を回避し、すなわち、勾配流を防止する負の入力の定形化を回避している。
我々は,(1)事前学習中に確率的アクティベーションを使用し,RELUを用いてモデルを微調整する。
これにより、推論FLOPが減少し、CPUの大幅なスピードアップに変換される。
興味深いことに、これはRELUアクティベーション関数でスクラッチからトレーニングするよりもはるかに優れた結果をもたらす。
2) 確率的アクティベーションの評価を行った。
この戦略は、温度スケーリングと組み合わせた最良の決定論的非線形性(SILU)よりもわずかに劣る。
これは、生成されたテキストの多様性を増大させる制御された方法を提供することによって、既存の戦略に代わるものを提供する。
関連論文リスト
- Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Gompertz Linear Units: Leveraging Asymmetry for Enhanced Learning Dynamics [39.0860823332923]
GoLU は $mathrmGoLU(x) = x, MathrmGompertz(x)$, where $mathrmGompertz(x) = e-e-x$ と定義される新しい自己ゲート活性化関数である。
GoLUは最先端のアクティベーション関数よりも優れており、既存のアクティベーション関数の強力な代替品として確立されている。
論文 参考訳(メタデータ) (2025-02-05T22:32:22Z) - Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
ネットワークプルーニングのためのemphtop-upアルゴリズムであるtextscNeuroALを提案する。
これは、高密度モデルとスパースバージョンの両方から情報を利用するブロックワイドと行ワイドのスパース性を変更する。
パフォーマンスと実行時のトレードオフの観点から、最新の最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-11T15:30:16Z) - Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time [45.72323731094864]
本稿では,2層ReLULUネットワーク間における重み減衰と凸緩和の最適性ギャップについて検討する。
私たちの研究は、なぜローカルメソッドがうまく機能するのかを理解することに新たな光を当てています。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - A Framework for Provably Stable and Consistent Training of Deep
Feedforward Networks [4.21061712600981]
本稿では、教師付き(分類と回帰)および教師なし(強化学習)シナリオにおいて、ディープニューラルネットワークを訓練するための新しいアルゴリズムを提案する。
このアルゴリズムは、標準降下勾配と勾配クリッピング法を組み合わせたものである。
理論的および実験を通して、我々のアルゴリズム更新はばらつきが低く、トレーニング損失はスムーズな方法で減少することを示す。
論文 参考訳(メタデータ) (2023-05-20T07:18:06Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Sparse Bayesian Learning via Stepwise Regression [1.2691047660244335]
我々は、RMP(Relevance Matching Pursuit)と呼ばれるSBLのための座標加算アルゴリズムを提案する。
ノイズ分散パラメータがゼロになるにつれて、RMPはステップワイド回帰と驚くべき関係を示す。
ステップワイド回帰アルゴリズムの新たな保証を導き、RMPにも光を当てる。
論文 参考訳(メタデータ) (2021-06-11T00:20:27Z) - Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial
Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。
我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。
提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2020-10-08T18:36:51Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。