Fugu-MT 論文翻訳(概要): ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models

論文の概要: ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models

arxiv url: http://arxiv.org/abs/2410.09637v2
Date: Fri, 25 Oct 2024 20:16:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 09:06:07.718257
Title: ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models
Title（参考訳）: ReLUの復活: 正規化自由大言語モデルにおけるエントロピー過負荷について
Authors: Nandan Kumar Jha, Brandon Reagen,
Abstract要約: LayerNormは、現代の大規模言語モデル(LLM)において重要なコンポーネントである。本研究は、正規化自由デコーダのみのLLMにおける望ましいアクティベーション関数について検討する。
参考スコア（独自算出の注目度）: 3.7802450241986945
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LayerNorm is a critical component in modern large language models (LLMs) for stabilizing training and ensuring smooth optimization. However, it introduces significant challenges in mechanistic interpretability, outlier feature suppression, faithful signal propagation, and computational and communication complexity of private inference. This work explores desirable activation functions in normalization-free decoder-only LLMs. Contrary to the conventional preference for the GELU in transformer-based models, our empirical findings demonstrate an {\em opposite trend} -- ReLU significantly outperforms GELU in LayerNorm-free models, leading to an {\bf 8.2\%} perplexity improvement. We discover a key issue with GELU, where early layers experience entropic overload, leading to the under-utilization of the representational capacity of attention heads. This highlights that smoother activations like GELU are {\em ill-suited} for LayerNorm-free architectures, whereas ReLU's geometrical properties -- specialization in input space and intra-class selectivity -- lead to improved learning dynamics and better information retention in the absence of LayerNorm. This study offers key insights for optimizing transformer architectures where LayerNorm introduces significant challenges.
Abstract（参考訳）: LayerNormは、トレーニングの安定化とスムーズな最適化を保証するため、現代の大規模言語モデル(LLM)において重要なコンポーネントである。しかし、機械的解釈可能性、外乱特性抑制、忠実な信号伝達、およびプライベート推論の計算と通信の複雑さにおいて大きな課題が持ち込まれている。本研究は、正規化自由デコーダのみのLLMにおける望ましいアクティベーション関数について検討する。変換器モデルにおけるGELUの従来の嗜好とは対照的に、我々の実証的な結果は、ReLUがレイヤーノームフリーモデルにおいてGELUを著しく上回っていることを示す。 GELUでは,初期層がエントロピックオーバーロードを経験し,アテンションヘッドの表現能力の過小評価に繋がる重要な問題を発見した。これは、GELUのようなスムーズなアクティベーションがLayerNormのないアーキテクチャに不適であるのに対して、ReLUの幾何学的性質(入力空間の特殊化とクラス内選択性)がLayerNormがない場合の学習ダイナミクスの改善と情報保持の改善につながっていることを強調している。この研究は、LayerNormが大きな課題をもたらすトランスフォーマーアーキテクチャを最適化するための重要な洞察を提供する。

関連論文リスト

Improving Reconstruction of Representation Autoencoder [52.817427902597416]
低レベル情報を欠いた意味的特徴を増強する表現オートエンコーダLV-RAEを提案する。実験により,LV-RAEは意味的抽象化を保ちながら,再構成の忠実度を著しく向上することが示された。
論文参考訳（メタデータ） (2026-02-09T13:12:35Z)
SpanNorm: Reconciling Training Stability and Performance in Deep Transformers [55.100133502295996]
両パラダイムの強度を統合することでジレンマを解消する新しい手法であるSpanNormを提案する。我々は、SpanNormと原則付きスケーリング戦略を組み合わせることで、ネットワーク全体にわたって有界信号のばらつきを維持できることを理論的に示す。経験的に、SpanNormは、密集および混成実験(Mixture-of-Experts、MoE)のシナリオにおいて、標準正規化スキームを一貫して上回っている。
論文参考訳（メタデータ） (2026-01-30T05:21:57Z)
SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation [8.54123828673921]
本稿では,リストワイド生成レコメンデーションに適した統一最適化フレームワークを提案する。シーケンスレベルの信号デカップリング: 幾何平均的重要性比と分離された多目的の利点を組み合わせることにより、トークンレベルの分散を排除します。非対称適応ダイナミクス: 超線形更新を実現するために、高強度冷間開始項目に「ブーストファクタ」を適用した動的勾配多様体を構築する。
論文参考訳（メタデータ） (2026-01-29T09:30:13Z)
Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文参考訳（メタデータ） (2025-12-15T18:02:35Z)
Improving Code LLM Robustness to Prompt Perturbations via Layer-Aware Model Editing [13.099973383252452]
大規模言語モデル(LLM)は、急激な摂動に対して非常に敏感である。ターゲットパラメータの更新によってLCMの堅牢性を高める新しいアプローチであるCREMEを導入する。実験の結果,CREMEは摂動プロンプトでPass@1の精度を63%向上することがわかった。
論文参考訳（メタデータ） (2025-07-22T09:57:55Z)
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate [1.0152838128195467]
大規模言語モデル(LLM)をスケールするための一般的なパラダイムは、モノリシックなエンドツーエンドのトレーニングである。本稿では,トランスフォーマーにおける創発的意味論の原理によって実現された,代替的,建設的なスケーリングパラダイムについて考察する。私たちはこれを、初期段階の厳密な層凍結とモデルスタック全体の効率的で総合的な微調整を組み合わせた、階層的に構築的な手法で運用します。
論文参考訳（メタデータ） (2025-07-08T20:01:15Z)
GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling [39.3376897081385]
既存の手法と組み合わせて使用可能なGPAS(Gradient-Preserving Activation Scaling)を提案する。 GPASは、その勾配を一定に保ちながら中間活性化をスケールダウンすることで機能する。モデルサイズが71Mから1Bの範囲で実験した結果,GPASが一貫した性能向上を達成できた。
論文参考訳（メタデータ） (2025-06-27T09:45:15Z)
The Resurrection of the ReLU [1.0626574691596062]
本稿では,ReLU (SUGAR) のサロゲート勾配学習を,深層アーキテクチャのための新しいプラグアンドプレイ正規化器として紹介する。 SUGARは、前方通過中に標準のReLU関数を保存するが、後方通過においてその誘導体を滑らかな置換基で置き換える。我々は,SUGARが十分に整合した代理関数と組み合わせることで,畳み込みネットワークアーキテクチャよりも性能が大幅に向上することを示した。
論文参考訳（メタデータ） (2025-05-28T07:55:51Z)
EFC++: Elastic Feature Consolidation with Prototype Re-balancing for Cold Start Exemplar-free Incremental Learning [17.815956928177638]
高品質なバックボーンを学習する最初のタスクでは、不十分なデータが利用可能である、難しいコールドスタートシナリオについて検討する。これは、高い塑性を必要とするため、EFCILにとって特に困難である。本稿では,従来の課題に強く関連する方向のドリフトを規則化し,特徴表現を統一する効果的な手法を提案する。
論文参考訳（メタデータ） (2025-03-13T15:01:19Z)
The Curse of Depth in Large Language Models [28.37870372690079]
大きな言語モデルでは、約半数のレイヤが予想よりも効果が低い。層ノルムスケーリング(LNS)は、層正規化の出力の分散を、その深さの平方根によって逆向きにスケールする。 LNSは、LLM事前学習性能の向上において、従来の正規化およびスケーリング技術よりも一貫して優れている。
論文参考訳（メタデータ） (2025-02-09T07:03:36Z)
ReGLA: Refining Gated Linear Attention [42.97193398172823]
線形注意は、標準変圧器に固有の2次時空の複雑さを減らすように設計されている。我々は、以前の提案が見落としていたいくつかの重要な問題に対処する機能マッピング機能を開発した。また, ゲーティング機構の飽和現象を探索し, 精製モジュールで補強した。
論文参考訳（メタデータ） (2025-02-03T18:03:13Z)
How to Alleviate Catastrophic Forgetting in LLMs Finetuning? Hierarchical Layer-Wise and Element-Wise Regularization [15.434072331989878]
大きな言語モデル(LLM)は、強力な汎用言語能力を示す。これらのモデルをドメイン固有のタスクで微調整すると、大惨な忘れがちになり、そこではモデルが事前訓練中に得られた重要な知識を上書きまたは失う。本研究では,微調整時の一般知識の保存に不可欠なモデルパラメータの要素的重要性を計算するための新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-23T13:54:53Z)
Hysteresis Activation Function for Efficient Inference [3.5223695602582614]
本稿では,Hysteresis Rectified Linear Unit (HLU) を提案する。トレーニングと推論のための固定しきい値を持つ従来のアクティベーション関数とは異なり、HLUはバックプロパゲーションを洗練させる可変しきい値を使用する。
論文参考訳（メタデータ） (2024-11-15T20:46:58Z)
LOCAL: Learning with Orientation Matrix to Infer Causal Structure from Time Series Data [51.47827479376251]
LOCALは動的因果構造を復元するための効率的で実装が容易で制約のない手法である。 Asymptotic Causal Learning Mask (ACML) と Dynamic Graph Learning (DGPL) 合成および実世界のデータセットの実験では、LOCALが既存の手法よりも大幅に優れていることが示されている。
論文参考訳（メタデータ） (2024-10-25T10:48:41Z)
RecurFormer: Not All Transformer Heads Need Self-Attention [14.331807060659902]
変換器をベースとした大規模言語モデル(LLM)は複雑な言語パターンをモデル化する上で優れているが、推論時にかなりの計算コストに直面している。本稿では,リニアリカレントニューラルネットワークに注意を向ける新しいアーキテクチャであるRecurFormerを提案する。
論文参考訳（メタデータ） (2024-10-10T15:24:12Z)
Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [27.991291785091736]
我々は、不要なデータの影響と関連するモデル機能を取り除くことを目的とした、大規模言語モデル(LLM)アンラーニングの問題に対処する。我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルに依存しない場合の「単純さ」がアンラーニングの恩恵をもたらすことを示す。
論文参考訳（メタデータ） (2024-10-09T17:58:12Z)
GLARE: Low Light Image Enhancement via Generative Latent Feature based Codebook Retrieval [80.96706764868898]
我々は、GLARE(Generative LAtent Feature based codebook Retrieval)を介して、新しい低照度画像強調(LLIE)ネットワークを提案する。 Invertible Latent Normalizing Flow (I-LNF) モジュールを開発し、LL特徴分布をNL潜在表現に整合させ、コードブック内の正しいコード検索を保証する。さまざまなベンチマークデータセットと実世界のデータに対するGLAREの優れたパフォーマンスを確認する実験。
論文参考訳（メタデータ） (2024-07-17T09:40:15Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文参考訳（メタデータ） (2023-10-24T03:08:58Z)
Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文参考訳（メタデータ） (2023-10-08T06:10:09Z)
GIFD: A Generative Gradient Inversion Method with Feature Domain Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。 textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文参考訳（メタデータ） (2023-08-09T04:34:21Z)
Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文参考訳（メタデータ） (2020-12-08T18:59:32Z)
Evolving Normalization-Activation Layers [100.82879448303805]
我々は、うまく機能しない候補層を迅速にフィルタリングする効率的な拒絶プロトコルを開発した。 EvoNormsは、新しい正規化活性化層であり、新しい構造を持ち、時には驚くべき構造を持つ。我々の実験は、EvoNormsがResNets、MobileNets、EfficientNetsなどの画像分類モデルでうまく機能していることを示している。
論文参考訳（メタデータ） (2020-04-06T19:52:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。